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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
内 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 
机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 白 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 洲 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill，Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne Stroustrup， 
Brian W. Kernighan, Dennis Ritchie，Jim Gray, Afred V Aho, John E. Hopcroft，Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ,我 们 的 目标 是 尽 善 尽 
美 , 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老 师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : ( 010 ) 88379604 

联系 地 址 ;北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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教材 的 选择 往往 是 一 个 令 人 诅 表 的 妥协 过 程 一 一 教学 方法 的 适用 度 、 知 识 点 的 覆盖 范 
围 、 文 辞 的 流畅 性 、 内 容 的 严谨 度 、 成 本 的 高 低 等 都 需要 考虑 。 本 书 之 所 以 是 难得 一 见 的 好 
书 ， 正 是 因为 它 能 满足 各 个 方面 的 要 求 ， 不 再 需要 任何 妥协 。 这 不 仅 是 一 部 关于 计算 机 组 成 
的 教科 书 ， 也 是 所 有 计算 机 科学 教科 书 的 典范 。 

一 一 Michael Goldweber, Xavier University 


我 从 第 1 版 开始 就 在 使 用 本 书 ， 到 现在 已 经 很 多 年 了 。 这 次 的 版 本 是 对 已 有 经 典 内 容 的 
又 一 次 完美 升级 。 从 桌面 计算 到 移动 计算 再 到 大 数据 ， 技 术 的 发 展 为 嵌入 式 处 理 器 开拓 了 新 
的 应 用 领域 ,如 ARM、 云 计算 以 及 通过 软 硬 件 交互 来 提高 性 能 的 新 材料 ， 等 等 。 所 有 这 些 
都 离 不 开 基 本 的 组 成 原理 。 





一 Ed Harcourt, St. Lawrence University 


无 论 是 对 于 80 后 、90 后 还 是 00 后 ， 这 都 是 一 本 应 该 珍藏 在 书架 上 (或 iPad 中 ) 的 计 
算 机 体系 结构 教材 。 这 本 书 既 古老 又 新 颖 ,不 仅 介绍 了 那些 伟大 的 原理 一 一 摩尔 定律 、 抽 
象 、 加 速 大 概率 事件 、 可 靠 性 、 存 储 器 层次 结构 、 并 行 和 流水 线 ， 而 且 使 用 现代 设计 对 这 些 
伟大 原理 进行 了 说 明 。 





——Mark D. Hill, University of Wisconsin-Madison 


本 书 的 新 版 本 与 新 兴 的 嵌入 式 和 众 核 (GPU) 系统 的 发 展 保持 同步 ， 当 前 的 发 展 趋势 使 
得 平板 电脑 和 智能 手机 很 快 变 成 新 的 桌面 电脑 。 本 书 接纳 了 这 些 变化 ,但 仍 介绍 了 大 量 计算 
机 组 成 与 设计 的 基本 原理 ， 这 对 于 新 设备 和 新 系统 的 软 硬 件 设计 人 员 来 说 非常 有 用 。 


一 一 Dave Kaeli, Northeastern University 


本 书 不 仅仅 会 讲解 计算 机 体系 结构 ， 而 且 为 读者 准备 了 迎接 新 的 变化 与 挑战 的 “ 锦 圳 ”。 
目前 ， 半 导体 工艺 技术 按 比 例 缩小 的 困难 使 得 所 有 系统 功率 受 限 ， 而 移动 系统 和 大 数据 处 理 
的 性 能 需求 却 仍 在 不 断 增长 。 在 计算 技术 这 一 新 领域 ， 必 须 进行 软 硬 件 协同 设计 ， 并 且 系统 
级 体系 结构 优化 与 部 件 级 优化 一 样 重要 。 





一 一 Christos Kozyrakis, Stanford University 


Patterson 和 Hennessy 讨论 了 不 断 变化 的 计算 机 硬件 体系 结构 中 的 重要 议题 ， 强 调 硬件 
和 软件 模块 在 不 同 抽象 层次 上 的 交互 。 书 中 涵盖 各 种 硬件 和 软件 机 制 ，UO 和 并 行 的 概念 贯 
穿 其 中 ， 全 景 式 呈现 了 后 PC 时 代 的 计算 机 体系 结构 。 无 论 是 平板 电脑 硬件 工程 师 还 是 云 计 
算 软 件 架 构 师 ， 如 果 你 正 对 能 源 效 率 和 并 行 化 问题 一 筹 莫 展 ， 那 么 本 书 必 将 成 为 不 二 之 选 。 
一 一 Jae C. Oh, Syracuse University 





| 译 者 序 
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本 书 的 翻译 工作 终于 接近 尾声 ， 有 机 会 翻译 图 灵 奖 得 主 Patterson 和 Hennessy 的 著作 让 
我 感到 非常 荣幸 。 本 书 对 计算 机 组 成 和 设计 实践 进行 了 系统 深入 的 介绍 和 讨论 ， 是 计算 机 组 
成 方面 最 为 畅销 的 经 典 教材 之 一 ， 适 合作 为 计算 机 及 相关 专业 的 本 科 生 教材 ， 同 时 也 适合 需 
要 对 计算 机 组 成 的 基本 原理 有 所 理解 的 读者 ， 以 及 需要 进一步 理解 计算 机 系统 如 何 工 作 的 读 
者 阅读 。 

本 书 至 今 已 经 发 行 了 5 版 ， 现 在 这 一 版 为 第 5 版 的 ARM 版 。 在 翻译 本 书 之 前 ， 我 们 在 
计算 机 原理 的 教学 工作 中 已 经 由 使 用 MIPS 调整 为 使 用 ARM 体系 结构 进行 教学 ， 目 的 是 使 
计算 机 原理 的 教学 工作 紧 跟 技术 前 沿 。2016 年 5 月 ， 在 合肥 举行 的 全 国 计 算 机 专业 系统 能 力 
培养 会 议 上 ， 我 们 得 知 Patterson 即将 出 版 《计算 机 组 成 与 设计 》 的 ARM 版 ， 这 与 我 们 的 工 
作 不 谋 而 合 。ARM 版 出 版 之 后 ， 华 章 很 快 引进 了 该 书 。 当 我 看 到 原版 著作 后 ， 当 即 答应 翻 
译 此 书 。 

ARM 处 理 器 是 典型 的 RISC 架构 ， 具 有 性 能 高 、 成 本 低 和 能 耗 省 的 特点 ， 在 智能 手机 、 
平板 电脑 、 嵌 入 控制 、 多 媒体 数字 等 处 理 器 领域 拥有 主导 地 位 。 同 时 ARM 也 在 向 桌面 机 、 
服务 器 和 超级 计算 机 领域 发 展 。 在 后 PC 时 代 ，ARM 具有 巨大 的 生态 系统 和 应 用 领域 。 因 
此 ， 了 解 这 一 体系 结构 对 于 我 们 理解 计算 机 的 组 成 原理 与 设计 实践 具有 重要 的 意义 。 

当然 ， 除 了 ARM 版 ， 本 书 还 有 传统 的 MIPS 版 和 新 推出 的 RISC-V 版 。 无 论 哪个 版 本 ， 
都 阐述 了 相似 的 基本 原理 和 设计 技术 ， 而 同样 的 根基 又 可 以 衍生 出 不 同 的 结构 。 我 想 这 也 正 
是 作者 提供 不 同 版 本 的 目的 所 在 ， 为 读者 提供 更 多 的 选择 与 比较 的 途径 ， 同 时 也 让 读者 体会 
到 计算 机 组 成 与 设计 万 变 不 离 其 宗 的 道理 。 

作者 认为 ， 计 算 领 域 各 个 方向 的 读者 都 能 从 本 书 的 学 习 中 受益 。 过 去 ， 程 序 员 在 计算 机 
体系 结构 专家 、 编 译 器 开发 者 以 及 芯片 工程 师 的 帮助 下 ， 一 行 代码 也 不 用 修改 ， 就 能 让 程序 
更 快 或 更 高 效 地 运行 在 新 型 微 处 理 器 上 。 但 是 ， 这 样 的 时 代 已 经 一 去 不 返 了 。 随 着 现代 计算 
机 技术 的 发 展 ， 计 算 领 域 的 各 个 方向 都 需要 对 硬件 和 软件 均 有 深入 理解 的 专业 人 士 。 作 者 在 
本 书 各 个 章节 的 组 织 和 盖 述 中 ， 也 贯穿 了 这 种 软 硬 件 贯 通 的 思想 。 

国内 的 学 者 也 早已 意识 到 软 硬 件 贯通 对 计算 机 人 才 培 养 的 重要 性 ， 系 统 能 力 培养 正在 
国内 高 校 的 计算 机 专业 中 如 火 如 蔡 地 展开 。 计 算 机 专业 人 才 培 养 已 从 强调 “程序 ”设计 向 强 
调 “系统 ”设计 转变 。 无 论 计算 机 发 展 是 呈现 当前 网 络 化 、 服 务 化 、 普 适 化 和 智能 化 的 特征 ， 
还 是 将 来 呈现 其 他 的 新 趋势 ,“ 系 统 ”都 是 各 种 酷 炫 应 用 背后 的 支撑 ， 是 计算 机 体系 里 最 核 
心 的 存在 。 培 养 具有 系统 观 、 能 够 进行 软 硬 件 协同 设计 的 软 硬 件 贯 通 人 才 正 是 计算 机 专业 人 
才 培 养 的 关键 。 千 里 之 行 始 于 足下 ， 对 计算 机 系统 基本 原理 和 组 成 结构 的 学 习 ， 正 是 理解 硬 
件 和 软件 在 各 个 层次 上 的 相互 关系 的 基础 。 

如 果 读 者 阅读 过 本 书 的 前 三 版 ， 会 发 现 自 第 4 版 起 到 第 5 版 ， 本 书 的 撰写 风格 有 了 不 小 
的 改变 ， 很 多 较为 “底层 ”和 基础 的 内 容 不 见 了 (比如 运算 器 的 细节 等 )， 而 并 行 和 优化 等 
知识 的 篇 幅 增 加 了 不 少 。 撰 写 风 格 和 内 容 发 生 改 变 的 原因 ， 一 方面 是 技术 发 展 所 致 ， 另 一 方 
面 ， 我 认为 也 是 教学 理念 和 方式 的 改变 所 致 。 我 于 2017 年 在 美国 德 克 萨 斯 大 学 奥斯汀 分 校 
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进行 了 为 期 三 个 月 的 教学 交流 (教学 内 容 是 与 计算 机 组 成 原理 相关 的 )， 期 间 也 为 美国 学 生 授 
课 。 我 发 现 、 教授 在 课堂 上 讲授 的 内 容 通常 是 较为 高 层 甚至 抽象 的 ， 而 大 量 与 授课 内 容 相 关 
的 基础 和 细节 ， 都 需要 学 生 在 课 后 查阅 资料 自行 学 习 ， 这 对 学 生 的 学 习 能 力 要 求 更 高 。 而 我 
们 则 总 是 希望 在 课堂 上 把 细节 和 关键 都 告诉 学 生 。 这 种 授课 和 人 才 培 养 理 念 的 不 同 给 我 留 下 
了 深刻 的 印象 ， 也 值得 国内 的 同行 思考 。 

为 了 尊重 原著 ， 本 书 译文 中 的 有 些 用 词 可 能 与 国内 的 其 他 书 不 太一 致 ， 例 如 第 1 章 出 现 
的 “die”"， 有 的 书 称 为 “芯片 ”( 这 种 解释 会 与 “chip” 混 淆 )， 有 的 书 称 为 “模具 ”。 我 根据 
自己 4 年 的 微 处 理 器 工程 项 目 经 验 ， 并 咨询 了 芯片 设计 开发 的 专业 人 士 ， 最 终 将 “ die” 解 
释 为 “ 管 芯 ”"， 即 芯片 中 的 裸 片 (事实 上 ， 专 业 人 士 沟通 时 通常 直接 使 用 “ die” 而 非 中 文 定 
义 )。 本 书 中 很 多 地 方 在 首次 给 出 中 文 解释 后 都 直接 使 用 了 英文 名 词 (例如 load/store)， 因 为 
有 些 定义 只 可 “ 意 会 ”不 可 “言传 "， 相 信 读 者 完全 可 以 体会 这 些 名 词 的 含义 ， 而 不 需要 拘 
泥 于 中 文 翻译 。 这 些 地 方 请 读者 阅读 时 注意 。 

在 翻译 过 程 中 ， 我 们 也 发 现 了 原著 中 的 一 些 笔 误 与 不 妥 之 处 ， 译 稿 中 已 进行 了 纠正 。 还 
有 一 些 标 有 “ 译 者 注 ” 的 地 方 ， 是 我 们 根据 对 原文 的 理解 并 结合 多 年 工程 和 研究 工作 中 的 经 
验 所 做 的 一 些 补充 说 明 ， 以 便于 读者 阅读 。 

全 书 主要 由 我 逐 字 翻译 并 校对 。 研 究 生 刘 文 杰 、 王 璐 、 王 博 千 参 与 了 部 分 内 容 的 翻译 和 
资料 整理 工作 。 在 本 书 的 翻译 过 程 中 ， 还 得 到 了 国防 科技 大 学 王 志 英 教授 、 机 械 工 业 出 版 社 
华章 公司 温 莉 芳 副 总 经 理 、ARM 教育 生态 部 总 监 陈 炜 博士 的 热情 指导 和 鼓励 。 机 械 工业 出 
版 社 华 章 公司 曲 烟 编 辑 也 为 本 书 的 翻译 和 出 版 提出 了 大 量 宝贵 意见 。 在 此 ， 谨 向 他 们 表示 惠 
心 的 感谢 。 

感谢 本 书 前 4 版 以 及 第 5 版 MIPS 版 的 译 者 清华 大 学 郑 纬 民 教授 、 西 北 工业 大 学 康 继 昌 
教授 、 樊 晓 醚 教授 、 王 党 辉 副教授 、 安 建 峰 副教授 等 ， 他 们 的 工作 使 得 这 本 重要 的 教材 在 国 
内 有 了 广泛 的 读者 ， 也 使 第 5 版 ARM 版 的 翻译 有 了 很 好 的 基础 和 参考 。 

在 此 也 要 感谢 我 的 家 人 ， 正 是 由 于 他 们 的 全 力 支持 ， 使 我 能 全 身心 投入 到 自己 所 热爱 的 
工作 之 中 。 特 别 感谢 我 的 儿子 安之 ， 当 我 工作 繁忙 加 班 加 点 时 ， 五 岁 的 他 总 是 在 办 公 室 安静 
地 伴 我 左右 。 

翻译 是 一 件 很 难 做 得 完美 的 事 ， 尽 管 我 们 常常 为 了 一 个 名 词 而 请 教 相关 方向 的 专家 并 反 
复 戎 酌 ， 但 由 于 时 间 及 水 平 的 限制 ， 难 免 还 有 错误 及 欠 妥 之 处 。 请 各 位 读者 批评 指正 ， 并 提 
出 宝贵 意见 ， 欢 迎 发 送 电子 邮件 至 cod5_arm @ qq.com。 

今日 写 序 ， 正 值 端午 ， 想 起 屈 大 夫 “ 路 漫漫 其 修 远 今 ， 吾 将 上 下 而 求索 ”的 心志 。 当 
前 正 是 我 国信 息 技术 创新 、 两 化 深度 融合 、IT 服务 全 面 改 革 以 及 推动 社会 与 经 济 健康 进步 
的 关键 时 期 。 中 兴 事 件 之 后 ， 国 人 愈 发 认识 到 核心 技术 量 须 攻克 。 肩 负 新 型 计算 系统 设计 与 
开发 责任 的 计算 机 专业 人 员 需 要 具有 系统 级 的 设计 、 实 现 和 应 用 能 力 ， 才 能 为 实现 国家 发 展 
目标 做 出 贡献 。 这 需要 从 事 计算 机 研究 和 教学 的 人 士 以 及 读者 的 共同 努力 。 今 日 未 济 ， 明 日 
可 期 。 




















陈 微 
2018 年 端午 于 长 沙 


| 前 言 


Computer Organization and Design: The Hardware/Software Interface, ARM Edition 


神秘 是 我 们 所 能 体验 的 最 美好 的 事物 ， 它 是 所 有 真正 的 艺术 和 科学 的 源泉 。 
一 一 阿尔 伯 特 ， 爱 因 斯 坦 ,《 我 的 信仰 》 1930 年 


关于 本 书 


我 们 学 习 计算 机 科学 与 工程 时 ， 不 仅 需要 了 解 这 个 领域 内 的 最 新 进展 ， 同 时 也 需要 掌 
握 计算 技术 背后 的 基本 原理 和 组 成 结构 。 计 算 机 系统 的 组 成 决定 了 系统 的 功能 和 性 能 ， 是 系 
统 成 功 与 否 的 关键 。 因 此 ， 计 算 领域 各 个 方向 的 读者 都 能 从 计算 机 系统 组 成 理论 的 学 习 中 
受益 。 

随 着 现代 计算 机 技术 的 发 展 ， 计 算 领 域 的 各 个 方向 都 需要 对 硬件 和 软件 均 有 深入 理解 的 
专业 人 士 。 硬 件 和 软件 在 各 个 层次 上 的 相互 关系 ， 为 理解 计算 技术 的 基本 原理 提供 了 框架 。 
无 论 你 感 兴趣 的 是 硬件 还 是 软件 ， 是 计算 机 科学 还 是 电气 工程 计算机 组 成 与 设计 的 核心 思 
想 都 是 相同 的 。 因 此 ， 本 书 着 重 展 示 计算 机 硬件 与 软件 间 的 相互 关系 ， 并 重点 介绍 当今 计算 
机 中 的 基础 概念 。 

当前 ， 微 处 理 器 由 单 核发 展 为 多 核 ， 这 一 趋势 印证 了 本 书 自 第 1 版 就 提出 的 观点 。 过 
去 ， 程 序 员 可 以 忽略 我 们 的 建议 ， 在 计算 机 体系 结构 专家 、 编 译 器 开发 者 以 及 芯片 工程 师 的 
帮助 下 ， 他 们 一 行 代码 也 不 用 修改 ， 就 能 让 程序 更 快 或 更 高 效 地 运行 在 新 型 微 处 理 器 上 。 但 
是 ， 这 样 的 时 代 已 经 一 去 不 返 了 。 为 了 使 程序 运行 得 更 快 ， 就 必须 要 实现 并 行 化 。 虽 然 许 多 
研究 者 的 目标 是 希望 程序 员 在 编写 程序 时 无 须 考虑 底层 硬件 的 并 行 特性 ， 但 这 一 目标 还 要 很 
多 年 才能 实现 。 我 们 认为 ， 至 少 在 下 一 个 十 年 里 ， 大 多 数 程序 员 仍 必须 理解 硬件 / 软件 接口 ， 
才能 编写 出 在 并 行 计算 机 上 高 效 运行 的 程序 。 

本 书 适合 以 下 读者 : 在 汇编 语言 或 (数字 ) 逻辑 设计 方面 只 有 少许 经 验 ， 需 要 对 计算 机 
组 成 的 基本 原理 有 所 理解 ; 具有 汇编 语言 或 逻辑 设计 基础 ， 需 要 学 习 如 何 设计 计算 机 ， 或 者 
需要 进一步 理解 计算 机 系统 是 如 何 工作 的 。 


与 本 书 相关 的 另 一 本 书 


有 些 读者 可 能 对 《计算 机 体系 结构 :量化 研究 方法 》 一 书 有 所 了 解 ， 也 就 是 人 们 常 说 
的 “Hennessy and Patterson”( 本 书 则 常 被 称 为 “ Patterson and Hennessy”)。 我 们 撰写 “ 量 
化 研究 方法 ” 那 本 书 ， 意 在 通过 坚实 的 工程 基础 和 量化 的 开销 /性 能 权衡 方法 来 描述 计算 
机 体系 结构 的 原理 。 书 中 以 商用 系统 为 基础 ， 将 案例 和 测量 方法 相 结合 ， 以 期 帮助 读者 积 
累 实际 的 设计 经 验 。 我 们 希望 阐明 的 是 ， 计 算 机 体系 结构 可 以 通过 “量化 ”的 方法 而 不 是 
“描述 ”的 方法 来 学 习 。 因 此 ， 它 主要 面向 需要 对 计算 机 体系 结构 有 详细 了 解 的 计算 机 专业 
在 

本 书 的 大 多 数 读 者 可 能 并 不 打算 成 为 计算 机 体系 结构 专家 。 然 而 ， 软 件 设计 人 员 对 
底层 硬件 技术 的 理解 程度 ， 将 对 软件 系统 的 性 能 和 能 效 产 生 显著 影响 。 因此， 编译 器 开发 
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者 、 操 作 系统 设计 者 、 数 据 库 程序 员 以 及 其 他 大 多 数 软件 工程 师 都 应 当 对 本 书 所 介绍 的 原 
理 有 充分 了 解 。 同样 ， 硬 件 设计 人 员 也 必须 清楚 地 理解 他 们 的 工作 将 对 软件 应 用 产生 何 种 
影响 。 

因此 ,本 书 绝 非 “量化 研究 方法 ”一 书 的 子 集 ， 而 是 进行 了 大 量 扩充 和 修订 ， 以 满足 不 
同 层次 的 读者 。 我 们 在 “量化 研究 方法 ”的 后 续 版 本 中 删除 了 很 多 介绍 性 的 内 容 ， 较 之 这 两 
本 书 的 第 1 版 ,现在 重合 的 内 容 已 经 大 幅 减 少 ， 这 是 一 个 令 人 高 兴 的 变化 。 


这 一 版 为 何 采用 ARMv8 

指令 集 的 选择 对 于 一 本 计算 机 体系 结构 教科 书 而 言 是 非常 关键 的 。 无 论 一 种 指令 集 多 受 
欢迎 ， 如 果 它 对 初学 者 来 说 花哨 难 懂 ， 我 们 仍 会 放弃 这 种 巴洛克 式 的 华美 。 初 次 接触 的 指令 
集 应 当 是 指令 集中 的 “典范 "， 足 以 被 牢记 心间 ， 就 像 牢记 初恋 一 样 。 你 或 许 不 会 相信 ， 初 
恋 和 初次 接触 的 指令 集 都 有 令 人 记忆 犹 新 的 魔力 。 

虽然 当年 也 有 很 多 种 指令 集 可 供 选 择 , 但 在 撰写 “量化 研究 方法 ”的 第 1 版 时 ,我 们 
自己 构造 了 一 种 RISC 风格 的 指令 集 一 一 MIPS。MIPS 指令 集 非常 简洁 而 且 广 受 欢迎 ， 因 此 
从 第 1 版 开始 ， 那 本 书 的 后 续 版 本 以 及 我 们 的 其 他 相关 书籍 都 采用 MIPS 指令 集 作为 范例 。 
MIPS 一 直 陪 伴 着 我 们 以 及 我 们 的 广大 读者 。 

当前 ，ARM 发 展 速度 惊人 ， 其 指令 集 的 受 欢迎 程度 也 令 人 难以 置信 。2015 年 ARM 必 
片 的 出 货 量 就 达到 了 140 亿 片 。 很 多 教师 提出 需求 ， 希 望 能 够 基于 ARM 出 版 一 个 版 本 。 在 
本 书 亚洲 版 的 一 些 章节 中 ， 我 们 曾 做 过 尝试 。 但 是 ，ARMv7 ( 32 位 地 址 ) 指令 集 “ 怪 异 ” 
的 风格 让 我 们 无 法 忍受 "。 因 此 ,我 们 考虑 不 再 继续 采用 ARMv7。 

然而 ， 让 人 惊喜 的 是 ，ARM 推出 的 64 位 指令 集 有 了 很 大 的 改动 。 较 之 ARMv7， 新 的 
64 位 指令 集 和 MIPS 有 很 多 相似 之 处 : 

。 将 寄存 器 数 由 16 个 增加 为 32 个 。 

e 将 PC 设计 为 独立 的 寄存 器 ， 而 不 是 寄存 器 组 中 的 一 个 。 

。 去 除了 指令 的 条 件 执行 功能 。 

e 去 除了 多 字 连 续 load 和 store (load multiple 和 store multiple) 指令 。 

。 增加 了 PC 相对 寻 址 的 分 支 指令 ， 支 持 较 大 的 转移 空间 。 

。 将 所 有 数据 传输 指令 的 寻 址 模式 设置 为 一 致 的 。 

。 减少 了 指令 集 的 条 件 码 。 








虽然 ARMv8 比 MIPS 庞大 得 多 ( ARMv8 指令 集 参 考 手册 多 达 5400 页 )， 但 是 本 书 只 
挑选 了 ARMv8 指令 集 的 一 个 子 集 ， 这 个 子 集 在 指令 数量 和 特性 上 都 与 以 前 版 本 所 采用 的 
MIPS 相似 。 为 了 避免 混淆 ， 本 书 将 这 个 子 集 称 为 LEGv8。 所 以 ， 本 书 基于 LEGv8 撰写 了 
ARMv8 版 。 

ARMv8 指令 集 本 身 提 供 了 32 位 地 址 指令 和 64 位 地 址 指令 两 种 模式 。 我 们 原本 可 以 
选择 ARMv8 指令 集 并 保持 32 位 地 址 模式 ， 不 过 我 们 的 出 版 商 对 读者 进行 了 调查 ， 结 论 是 
75% 的 读者 倾向 于 采用 64 位 地 址 模式 或 者 持 中 立 态度 。 因 此 我 们 最 终 决定 将 地 址 空间 扩展 
为 64 位 ， 从 目前 技术 发 展 的 角度 来 看 也 更 为 合理 。 


加 ARMv7 指令 集 支持 条 件 执行 ， 操 作 数 寻 址 方式 复杂 ， 指 令 集 复杂 度 介 于 RISC 和 CISC 之 间 。 一 一 译 者 注 


ARM 版 和 MIPS 版 的 区 别 仅 在 于 涉及 指令 集 的 章节 ， 主 要 是 第 2、3、5 章 的 虚拟 存储 
器 部 分 ， 以 及 第 6 章 的 VMIPS 例子 部 分 。 第 4 章 切换 到 了 ARMYv8 指令 ， 修 改 了 若干 图 表 ， 
增加 了 一 些 “ 精 解 ”模块 ， 这 些 改动 都 较为 简单 。 第 1 章 和 剩 下 的 附录 几乎 没有 改动 。 考 虑 
到 网 络 上 大 量 的 文档 材料 以 及 ARMv8 本 身 的 复杂 度 ， 将 原来 的 附录 A (汇编 器 、 链 接 器 和 
SPIM 模拟 器 ) 从 MIPS 版 替换 为 ARM 版 是 非常 困难 的 。 对 此 ， 本 书 在 第 2、3 、5 章 中 均 包 
含 了 对 除 ARMv8 核心 指令 ?之 外 的 其 他 ARMv8 指令 的 快速 概述 ， 而 这 些 核心 指令 则 在 其 他 
章节 中 详细 介绍 。 我 们 相信 本 书 的 读者 即使 没有 阅读 网 络 上 动 辑 几 千 页 的 资料 的 经 验 ， 也 依 
旧 能 够 较 好 地 理解 ARMv8。 其 他 勇于 探索 的 读者 则 可 以 通过 阅读 这 些 概述 对 ARMv8 形成 
框架 性 的 认识 ， 以 便 后 续 更 好 地 理解 ARMv8 众多 复杂 的 特点 。 

当然 ， 我 们 并 没有 打算 永久 地 采用 ARMv8 结构 ， 例 如 本 书 第 5 版 的 ARM 版 和 MIPS 
版 就 同时 在 售 。 本 书 未 来 的 版 本 可 能 还 会 有 对 MIPS 版 和 ARM 版 的 需求 ， 也 可 能 会 有 包含 
另 一 种 指令 集 的 新 版 本 出 现 。 我 们 期 待 你 的 反馈 。 


第 5 版 的 变化 


第 5 版 有 6 项 主要 变化 : 

e 通过 实例 论证 理解 硬件 的 重要 性 。 

se 对 于 第 1 章 中 提 到 的 8 个 伟大 思想 ， 在 后 面 每 次 应 用 这 些 思想 时 予以 突出 显示 。 

。 更 新 例题 ， 体 现 从 PC 时 代 到 后 PC 时 代 的 发 展 变化 。 

e 将 1/0 吞吐 率 方面 的 内 容 员 穿 在 整 本 书 中 ， 而 不 是 集中 在 一 章 中 阐述 。 

e 对 技术 内 容 进 行 了 更 新 ， 体 现 自 2009 年 本 书 第 4 版 出 版 以 来 工业 界 的 变化 。 

。 将 附录 和 可 选 章节 的 内 容 放 在 互联 网 上 ( 带 有 留 图 标 )， 而 不 是 随 书 附加 CD， 从 而 

降低 了 成 本 ， 也 使 新 版 本 可 独立 成 为 一 部 电子 书 。 

在 详细 介绍 第 5 版 的 变化 即 修订 目标 之 前 ， 首先 看 下 表 。 该 表 列 出 了 本 书 的 主要 内 容 
并 为 关注 硬件 和 关注 软件 的 两 类 读者 分 别 进行 了 导读 。 其 中 , 第 1、4、5、6 章 是 两 类 读者 
都 需 关注 的 。 第 1 章 讨 论 了 能 耗 的 重要 性 及 其 如 何 引 发 微 处 理 器 从 单 核 向 多 核 转 变 ， 还 介 
绍 了 计算 机 体系 结构 中 的 8 个 伟大 思想 。 第 2 章 对 于 硬件 方向 的 读者 来 说 很 可 能 是 复习 性 
的 内 容 ， 而 对 于 软件 方向 的 读者 来 说 则 是 必 选 的 学 习 内 容 ， 特 别 是 希望 对 编译 器 和 面向 对 
象 编程 语言 有 更 多 了 解 的 读者 。 第 3 章 适合 对 数据 通路 构建 或 浮 点 运算 感 兴趣 的 读者 。 如 
果 你 对 这 些 内容 没 有 兴趣 ， 或 是 已 经 掌握 了 这 部 分 知识 ， 则 可 以 跳 过 该 章 。 不 过 ， 第 3 章 
中 给 出 了 一 个 矩阵 乘法 的 实例 ， 展 示 如 何 通过 子 字 并 行 方法 将 性 能 提高 4 倍 ， 因 此 不 要 跳 
过 3.6 一 3.8 节 。 第 4 章 介绍 流水 线 处 理 器 。 其 中 ,4.1、4.5 和 4.10 节 为 概述 ，4.12 节 给 
出 了 进一步 提高 矩阵 乘法 性 能 的 方法 ， 这 些小 节 对 于 关注 软件 的 读者 来 说 比较 重要 。 而 对 
于 关注 硬件 的 读者 ， 第 4 章 是 核心 内 容 ， 你 可 以 根据 自己 具备 的 硬件 知识 背景 ,选择 是 否 
先 阅读 附录 A 中 的 逻辑 设计 部 分 。 最 后 一 章 是 全 新 的 内 容 ， 涉 及 多 核 、 多 处 理 器 和 集群 
系统 ， 所 有 读者 都 应 该 阅读 。 我 们 重新 组 织 了 内 容 ， 希 望 能 使 很 多 技术 思想 的 阐述 更 加 自 
然 ， 并 且 引入 了 更 多 关于 GPU、 仓 储 式 计算 机 以 及 网 络 软 硬 件 接口 (集群 系统 中 的 关键 ) 的 
内 容 。 








日 即 LEGv8。 一 一 译 者 注 































































































































































章 / 附录 节 关注 软件 关注 硬件 
第 1 章 LI~LU EA re 
计算 机 的 抽象 与 技术 器 1.12 (历史 ) Rn we 
2.1~2.14 re Ee 
第 2 章 国 2.15 (编译 器 和 Java) wr 
指令 ; 计算 机 的 语言 2.16-2.21 Zre ZrcY 
句 2.22 (历史 ) we re 
附录 D 
RISC 指令 集体 系 结构 es 2 
3.1 一 3.5 rc LA 
第 3 章 3.6~3.9 ( 子 字 并 行 ) Zr bss 
计算 机 的 算术 运算 3.10~3.11 ( 雇 误 ) Zr ZrcY 
留 3.12 (历史 ) Te Ee 
录 A 
a SPE 
4.1 (引言 ) A 
4.2 (逻辑 设计 的 一 般 方法 ) rex 
4.3~4.4 (简单 实现 ) Zrex 
4.5 (流水 线 概述 ) re 
第 4 章 4.6 (流水 线 数据 通路 ) re 
处 理 器 4.7-4.9 (冒险 和 异常 ) ere 
EE 
Ea 
EE 
本 4.16 (历史 ) rm 
附录 C 
控制 加 的 硬件 实现 a 本 
EA 
re 
Zr 
Zr 
了 
bh 
A 
bd 
odes 
PR 








5.1-5.10 Re 
Pe 鲍 5.11 (廉价 元 余 磁盘 阵列 ) Zr 
大 容量 和 高 速度 。 开 发 存储 器 层次 结构 留 5.12 (Verilog cache 控制 器 ) 
5.13-5.16 re 
器 5.17 (历史 ) we 
6.1-6.8 Terex 
第 6 章 器 6.9 (网 络 ) hd 
并 行 处 理 器 : 从 客户 端 到 云 6.10~6.14 RE 
器 6.15 (历史 ) we 
三 
仔细 阅读 ”reY 有 时 间 阅 读 _ 作为 参考 reY 
回顾 或 阅读 rex 拓展 阅读 ”对 可 


第 5 版 的 第 一 个 目标 是 希望 通过 具体 的 例子 ， 帮 助 读者 理解 硬件 对 提高 性 能 和 能 效 的 重 
要 性 。 正 如 前 面 所 述 ， 第 3 章 介绍 了 如 何 采 用 子 字 并 行将 矩阵 乘法 加 速 4 倍 。 第 4 章 介绍 了 通 
过 循环 展开 将 性 能 翻 倍 ， 从 而 证 明了 指令 集 并 行 的 价值 。 第 5 章 阐 述 了 如 何 利用 分 块 技术 优化 
cache， 将 性 能 再 次 翻 倍 。 第 6 章 证 明了 通过 在 16 个 处 理 器 上 采用 线程 级 并 行 可 以 获得 14 倍 的 





加 速 比 。 而 这 四 种 优化 技术 的 实现 ， 仅 需要 在 原始 矩阵 乘法 例子 的 C 代码 上 增加 24 行 代码 。 

第 二 个 目标 是 帮助 读者 更 好 地 理解 计算 机 体系 结构 技术 的 精 角 : 首先 集中 介绍 计算 机 体系 
结构 设计 中 的 8 个 伟大 思想 ， 然 后 在 整 本 书 中 明确 指出 这 些 思想 的 应 用 。 在 每 次 引用 这 些 伟 大 
思想 时 会 突出 显示 ， 全 书 大 约 有 100 次 引用 ， 每 章 中 至 少 有 7 处 应 用 实例 ， 并 且 每 个 思想 至 少 
被 引用 5 次。 通过 并 行 、 流 水 线 以 及 预测 技术 提高 性 能 是 被 引用 最 多 的 三 个 思想 ， 其 次 是 摩尔 
定律 。 讲 述 处 理 器 的 第 4 章 是 实例 最 多 的 一 章 ， 也 是 最 吸引 计算 机 架构 师 的 一 章 。 通 过 并 行 提 
高 性 能 是 在 每 一 章 中 都 能 找到 的 伟大 思想 ， 这 也 是 近年 来 计算 机 领域 以 及 本 书 所 一 直 强 调 的 。 

第 三 个 目标 是 通过 例题 和 相关 讲解 ， 来 展现 计算 技术 从 PC 时 代 进入 后 PC 时 代 的 变化 。 
因此 ,第 1 章 中 直接 介绍 了 平板 电脑 而 非 传统 的 PC， 第 6 章 则 描述 了 云 计算 基础 设施 。 此 
外 ， 本 版 还 引信 了 后 PC 时 代 个 人 移动 设备 里 广泛 使 用 的 ARM 指令 集 ， 以 及 在 PC 时 代 和 云 
计算 中 占 主导 地 位 的 x86 指令 集 。 

第 四 个 目标 是 将 IO 吞吐 率 方面 的 内 容 贯 穿 在 整 本 书 中 ， 而 不 是 集中 在 一 章 中 介绍 。 这 
与 第 4 版 中 将 并 行 技术 贯穿 全 书 各 章 的 做 法 一 样 。 因 此 ， 大 家 可 在 1.4、4.9、5.2、5.5、5.11 
和 6.9 节 中 找到 1/O 相关 的 内 容 。 我 们 的 初衷 是 希望 通过 分 散 这 些 内容 ， 使 得 IO 对 于 读者 
(和 教师 ) 而 言 更 容易 掌握 。 

计算 机 是 一 个 快速 发 展 的 领域 ， 本 书 推出 新 版 就 是 希望 能 通过 更 新 技术 内 容 而 跟 上 发 展 
浪潮 ， 这 也 是 我 们 的 第 五 个 目标 。 所 以 ， 本 版 采用 能 够 反映 后 PC 时 代 特 点 的 ARM Cortex- 
A53 和 Intel Core i7 作为 实例 。 此 外 ， 我 们 还 增加 了 关于 GPU 特有 术语 的 教程 ， 并 对 构成 云 
的 仓储 式 计算 机 以 及 10G 以 太 网 卡 进行 了 较为 深入 的 阐述 。 

最 后 一 个 目标 是 ， 为 了 保持 本 书 主体 部 分 的 精简 ， 以 及 考虑 到 纸 质 书 与 电子 书 的 兼容 
性 ,我 们 一 改 以 前 版 本 的 做 法 ,将 可 选 内 容 由 随 书 CD 改 为 网 络 资源 。 

此 外 ,我 们 更 新 了 本 书 的 所 有 练习 题 。 

在 修订 内 容 的 同时 ， 本 版 仍然 保留 了 以 往 版 本 中 有 用 的 要 素 。 例 如 ， 为 使 本 书 作为 参考 
书 使 用 时 更 为 便捷 ， 我 们 仍 在 新 术语 第 一 次 出 现时 给 出 定义 ， 放 在 页 边 供 读者 参考 。 书 中 的 
“理解 程序 性 能 ”模块 有 助 于 读者 理解 程序 的 性 能 ， 以 及 如 何 提 高 性 能 ; 而 “硬件 / 软件 接 
口 ” 模 块 会 帮助 读者 理解 有 关 接 口 的 权衡 问题 。 与 之 前 的 版 本 一 样 ， 本 版 依旧 包含 “重点 ” 
模块 ， 防 止 读 者 “只 见 树木 不 见 森林 ”-“ 小 测验 ”模块 以 及 每 章 最 后 的 “小 测验 答案 ”， 可 
帮助 读者 在 第 一 时 间 加 强 对 内 容 的 理解 。 本 版 同样 提供 了 ARMv8 参考 数据 卡 ”， 这 是 从 IBM 
System/360 的 “绿卡 ”中 得 到 的 灵感 。 卡 片上 的 数据 已 进行 了 更 新 ， 在 编写 ARMv8 汇编 语 
言 程序 时 ， 可 以 作为 很 好 的 参考 。 


教学 支持 ” 


我 们 收集 了 大 量 材料 供用 书 教师 在 授课 时 使 用 ， 包 括 练习 题 答案 、 书 中 的 图 表 、 配 套 的 
幻灯 片 等 ,教师 可 以 在 出 版 商 处 注册 后 获得 。 本 书 的 网 页 上 同时 给 出 了 一 个 链接 ， 读 者 可 以 
从 该 链接 上 下 载 ARM DS-5 专业 软件 套件 ， 包 括 ARMv8-A ( 64 位 ) 体系 结构 模拟 器 ， 以 及 
附录 、 术 语 表 、 参 考 文献 和 推荐 读物 等 其 他 用 于 进一步 学 习 的 资料 。 如 需 更 多 信息 ， 请 访问 
出 版 商 网 址 : booksite.elsevier.com/9780128017333。 


日 即 LEGv8 参考 数据 卡 (Reference Data Card)， 见 本 书 封面 以 及 封底 的 背面 。 一 一 译 者 注 
加 关于 本 书 教 辅 资源 ， 只 有 使 用 本 书 作为 教材 的 教师 才 可 以 申请 ， 需 要 的 教师 请 访问 爱 思 唯 尔 的 教材 网 站 
https://textbooks.elsevier.com/ 进行 申请 。 一 一 编辑 注 


结语 

从 下 面 的 致谢 中 ， 你 会 发 现 我 们 花费 了 很 长 时 间 去 修订 本 书 各 版 中 的 错误 。 由 于 本 书 印 
刷 了 多 次 ， 因 此 我 们 有 机 会 做 更 多 的 校正 。 如 果 你 发 现 还 有 遗留 的 错误 ， 请 通过 电子 邮件 与 
出 版 社 联系 (codARMbugs@mkp.com)， 或 者 通过 邮局 将 信件 邮寄 给 出 版 商 。 

本 版 是 Hennessy 和 Patterson 自 1989 年 以 来 长 期 合作 的 第 三 次 中 止 。 由 于 要 管理 一 所 世 
界 知名 的 大 学 ，Hennessy 校长 将 无 法 继续 参加 新 版 本 的 实际 编写 工作 。 留 下 Patterson 一 人 感 
觉 自己 像 是 走 在 没有 安全 网 保护 的 钢丝 强 上 。 所 以 ， 在 致谢 中 列 出 的 人 以 及 伯克利 的 同事 们 在 
本 书 的 撰写 过 程 中 起 了 更 大 的 作用 。 当 然 ， 以 后 读者 阅读 本 书 时 抱怨 的 对 象 应 该 只 有 我 一 人 。 
致谢 

在 本 书 的 每 一 版 中 ,我 们 都 非常 幸运 地 得 到 了 许多 来 自 读者 、 审 稿 人 以 及 其 他 拟稿 人 的 
帮助 。 每 个 人 的 帮助 都 使 本 书 更 加 完美 。 

我 们 要 向 Khaled Benkrid 和 他 在 ARM 公司 的 同事 表示 惠 心 的 感谢 。 他 们 仔细 阅读 了 本 
书 中 和 ARM 相关 的 内 容 ， 并 提供 了 很 多 建设 性 的 反馈 意见 。 

第 6 章 做 了 较 大 的 修改 ， 以 至 于 我 们 对 该 章 中 的 思想 和 内 容 进行 了 单独 评审 ， 并 根据 每 
位 评审 人 的 反馈 意见 做 了 修改 。 感 谢 斯 坦 福 大 学 的 Christos Kozyrakis， 他 建议 在 集群 中 使 用 
网 络 接口 来 论证 1/0 的 软 硬 件 接口 ， 并 对 该 章 其 他 内 容 的 组 织 提出 了 建议 。 感 谢 斯 坦 福 大 学 
的 Mario Flagsilk， 他 提供 了 NetFPGA NIC 的 细节 、 图 表 以 及 性 能 评测 数据 。 感 谢 对 第 6 章 
修改 提出 建议 的 下 列 人 员 : David Kaeli ( Northeastern University )，Partha Ranganathan ( HP 
Labs)，David Wood (University of Wisconsin)。 还 要 感谢 我 在 伯克利 的 同事 Siamak Faridani、 
Shoaib Kamil 、Yunsup Lee 、Zhangxi Tan、Andrew Waterman。 

特别 感谢 Rimas Avizenis ( UC Berkeley)， 他 开发 了 不 同 版 本 的 矩阵 乘法 ， 并 提供 了 相应 
的 性 能 数据 。 我 在 UCLA 读 研 究 生 时 与 他 的 父亲 一 起 工作 ， 和 Rimas 共事 是 一 件 美好 的 事情 。 

感谢 我 的 长 期 合作 伙伴 Randy Katz ( UC Berkeley)。 我们 共同 讲授 本 科 生 课 程 时 ， 一 起 
提炼 了 计算 机 体系 结构 中 的 伟大 思想 。 

感谢 David Kirk 、John Nickolls 以 及 他 们 在 NVIDIA 的 同事 ( Michael Garland 、John 
Montrym、Doug Voorhies、Lars Nyland 、Erik Lindholm 、Paulius Micikevicius、Massimiliano 
Fatica 、Stuart Oberman 、Vasily Volkov)， 他 们 为 本 书 提供 了 第 一 个 深入 介绍 GPU 的 附录 。 
再 次 感谢 Jim Larus， 他 现在 是 EPFL 计算 机 与 通信 科学 学 院 的 院 长 ， 为 本 书 发 挥 了 他 在 汇编 
语言 方面 的 专长 ， 欢 迎 本 书 读者 使 用 他 所 开发 和 维护 的 模拟 器 。 

非常 感谢 Zachary Kurmas ( Grand Valley State University) 在 本 书 前 几 版 的 基础 上 ， 为 本 
版 更 新 和 新 增 了 很 多 练习 题 。 同 样 感谢 本 书 过 去 几 版 中 练习 题 的 编写 人 员 : Perry Alexander 
(Te University of Kansas )，Jason Bakos ( University of South Carolina )，Javier Bruguera 
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Computer Organization and Design: The Hardware/Software Interface, ARM Edition 


计算 机 的 抽象 与 技术 





1.1 引言 


欢迎 阅读 本 书 ! 非常 高 兴 有 机 会 与 大 家 一 起 分 享 令 人 兴奋 的 计 “| 在 不 关注 具体 过 程 的 情况 
算 机 系统 世界 ， 这 是 一 个 进步 飞快 、 新 思想 层出不穷 、 非 常 有 趣 的 ”| 下 完成 更 多 的 重要 操作 ， 
领域 。 事 实 上 ， 计算机 是 极其 充满 活力 的 信息 技术 工业 的 产物 ， 其 | 
相关 产品 几乎 占 美 国 国民 生产 总 值 的 10%， 美 国 经 济 已 与 摩尔 定律 | jo pr poteod, an 
驱动 的 信息 技术 的 快速 发 展 密 不 可 分 。 这 一 领域 的 创新 速度 同样 惊 “| wrodcriom so amemonr 
人 ， 在 过 去 30 年 里 ， 出 现 了 许多 导致 计算 产业 革命 的 新 型 计算 机 ， 【| 2/ 

但 很 快 又 被 更 好 的 计算 机 所 取代 。 

电子 计算 机 自 20 世纪 40 年 代 后 期 诞生 以 来 ， 其 创新 性 的 竞争 带 来 了 史无前例 的 进步 。 
如 果 运 输 业 能 够 按 计算 机 工业 的 速度 发 展 ， 那 么 我 们 只 需要 花 一 美 分 就 可 以 在 一 秒 钟 之 内 
从 纽约 赶 到 伦敦 。 想 象 一 下 这 样 的 进步 将 如 何 改变 社会 一 一 生活 在 南 太 平 洋 的 塔 希 提 岛 ， 而 
工作 在 旧金山 ， 傍 晚 去 莫斯科 欣赏 波 修 瓦 芭 蓝 舞 团 的 表演 一 一 你 可 以 从 这 些 改变 中 充分 享受 
生活 。 

继 农业 革命 、 工 业 革命 之 后 ， 计 算 机 促进 了 人 类 文明 的 第 三 次 革命 一 信息 革命 。 信 息 
革命 使 得 人 类 智力 的 广度 和 深度 成 倍增 长 ， 既 影响 了 人 类 的 日 常生 活 ， 也 改变 了 人 们 寻求 新 
知识 的 方式 。 现 在 有 一 种 科学 探索 的 新 方式 ， 即 计算 科学 家 与 理论 和 实验 科学 家 联手 ， 共 同 
探索 天 文 、 生 物 、 化 学 、 物 理 以 及 其 他 学 科 的 前 沿 问题 。 

计算 机 革命 一 直 在 向 前 推进 。 每 当 计算 成 本 降低 为 原来 的 1110， 计 算 机 的 发 展 机 遇 就 会 
大 大 增加 。 原 本 出 于 经 济 考虑 不 可 行 的 应 用 突然 就 变 得 可 行 了 。 例 如 ， 下 述 各 项 应 用 在 过 去 
曾 被 认为 是 “计算 机 科学 幻想 ”: 

日 车 载 计算 机 : 在 20 世纪 80 年 代 初 微 处 理 器 的 性 能 和 价格 得 到 极 大 改进 之 前 ， 用 计 

算 机 来 控制 汽车 几乎 是 天 方 夜 谭 。 而 今天 ， 车 载 计算 机 通过 控制 汽车 发 动机 减少 了 污 
染 、 改 进 了 燃油 效率 ， 通 过 盲点 警告 、 车 道 偏离 警告 、 移 动 目标 检测 和 安全 气囊 实现 
了 碰撞 时 对 乘客 的 保护 。 

。 手机 : 谁 曾 想到 计算 机 系统 的 发 展会 使 这 个 星球 一 半 以 上 的 人 口 拥有 手机 ， 并 让 人 们 

几乎 在 全 球 的 任何 一 个 角落 都 可 以 自由 通信 ? 

e。 人 类 基因 项 目 : 用 于 匹配 和 分 析 人 类 DNA 序列 的 计算 机 设备 价格 高 达 几 亿美 元 。 而 

在 过 去 的 15 ~ 25 年 里 ， 用 于 该 项 目的 计算 机 设备 的 价格 降低 了 10 ~ 100 倍 。 随 着 
计算 机 设备 价格 的 持续 下 降 ， 人 们 很 快 就 可 以 获得 自己 的 基因 序列 ， 从 而 实现 个 性 化 
医生 5 

e 万 维 网 : 在 编写 本 书 第 1 版 时 ， 万维网 尚 不 存在 ， 而 如 今 万 维 网 已 经 改变 了 整个 社 





日 个 性 化 医疗 可 以 根据 病人 的 基因 信息 为 其 提供 “定制 医疗 ”服务 ， 使 治疗 更 加 精准 。 这 种 个 性 化 的 医疗 
服务 甚至 在 你 尚未 出 生 时 就 已 经 被 清晰 地 制定 好 了 - 一 一 译 者 注 
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会 。 在 很 多 地 方 ， 网 络 已 经 取代 了 传统 的 图 书馆 和 报纸 。 


。 搜索 引擎 : 网 络 上 所 提供 的 内 容 越 来 越 丰富 ， 也 越 来 越 有 价值 ， 如 何 快速 精确 地 找到 
所 需 信息 变 得 越 来 越 重要 。 今 天 ， 对 于 很 多 人 而 言 ， 生 活 和 工作 中 的 大 量 信息 都 依赖 


于 网 络 ， 若 没有 了 搜索 引擎 ， 人 们 将 寸步 难 行 。 


显然 ， 计 算 机 技术 的 进步 几乎 影响 了 社会 的 每 一 个 方面 。 硬 件 的 进步 使 得 程序 员 可 以 编 
写 出 各 种 强大 实用 的 软件 ， 这 些 软件 的 应 用 也 让 计算 机 变 得 无 处 不 在 。 今 天 的 科学 幻想 可 能 
就 是 明天 的 “杀手 级 ”应 用 ， 例 如 增强 现实 眼镜 、 无 现金 社会 和 无 人 驾驶 汽车 。 


1.1.1 计算 机 应 用 的 分 类 和 特点 


从 智能 家 电 到 手机 再 到 大 型 超级 计算 机 ， 这 些 设备 中 都 使 用 了 一 些 通用 的 计算 机 硬件 技 


术 (参见 1,4 节 和 1.5 节 )。 当 然 ， 这 些 不 同 的 应 用 有 不 同 的 设计 需求 ， 
硬件 技术 。 一 般 而 言 ， 计 算 机 按 其 应 用 可 以 分 为 以 下 三 类 。 

个 人 计算 机 ( Personal Computer，PC ) 可 能 是 最 为 人 所 知 的 应 
用 方式 ， 也 是 本 书 读者 使 用 最 多 的 方式 。 个 人 计算 机 侧重 于 为 单 
个 用 户 提供 良好 的 性 能 ， 保 证 低廉 的 价格 ， 并 通常 运行 第 三 方 软 
件 。 此 类 应 用 虽然 出 现 才 仅仅 35 年 ， 但 却 推动 了 许多 计算 技术 的 
革新 。 

服务 器 ( server) 过 去 被 称 为 大 型 计算 机 ， 现 在 则 称 为 服务 器 ， 
通常 通过 网 络 访问 。 服 务 器 适用 于 执行 大 负载 任务 ， 可 以 处 理 单 个 
复杂 应 用 〈 科 学 的 或 工程 的 )， 也 可 以 处 理 大 量 的 简单 作业 ， 如 构建 
大 型 Web 服务 器 时 的 相关 作业 。 这 些 应 用 通常 基于 其 他 软件 (例如 
数据 库 或 仿真 软件 ) 实现 ， 并 且 往 往 为 了 实现 特殊 的 功能 而 加 以 修 
改 或 定制 。 服 务 器 的 制造 和 桌面 计算 机 的 制造 所 使 用 的 一 些 基本 技 
术 是 相同 的 ,但 服务 器 能 够 提供 更 强 的 计算 、 存 储 和 1/0 能 力 。 并 
且 服 务 器 具有 更 强 的 可 靠 性 ， 因 为 相对 于 个 人 计算 机 ， 服 务 器 崩溃 
后 恢复 的 代价 要 高 得 多 。 

服务 器 的 功能 和 价格 的 浮动 范围 很 大 。 低 端 服务 器 可 能 比 桌 
面 计算 机 稍 贵 些 ， 若 不 带 显示 器 或 键盘 ， 大 约 需 要 1000 美元 。 低 
端 服务 器 通常 用 于 文档 存储 、 小 型 商业 应 用 或 者 简单 的 Web 服务 。 
另 一 方面 是 高 端 服 务 器 ， 其 极致 是 超级 计算 机 ( supercomputer) 。 
超级 计算 机 一 般 由 上 万 个 处 理 器 组 成 ， 内 存 为 terabyte 级 ， 其 
价格 可 高 达 数 千 万 甚至 上 亿美 元 ,通常 用 于 高 端 科 学 和 工程 计 
算 ， 如 天 气 预 报 、 石 油 勘探 、 蛋 白质 结构 计算 和 其 他 大 规模 计算 
问题 。 虽 然 超级 计算 机 代表 了 最 高 的 计算 能 力 ， 但 是 其 数量 只 占 
服务 器 数量 的 很 小 一 部 分 ， 在 整个 计算 机 市 场 份额 中 所 占 的 比例 
更 小 。 

髓 入 式 计算 机 (embedded computer) 是 计算 机 中 数量 最 多 的 一 
类 ， 应 用 十 分 广泛 ， 包 括 汽车 中 的 微 处 理 器 、 电 视 机 中 的 计算 机 ， 
以 及 用 来 控制 飞机 和 货船 的 处 理 器 网 络 。 嵌 入 式 计算 系统 的 设计 目 
标 是 运行 一 个 或 者 一 组 相关 的 应 用 ， 这 些 应 用 通常 和 硬件 集成 在 一 


因此 需要 不 同 的 核心 


个 人 计算 机 : 用 于 个 人 
使 用 的 计算 机 ， 通 常 包 
含 图 形 显示 器 、 键 盘 和 饼 
标 等 。 


服务 器 ; 能 同时 为 多 个 用 
户 使 用 、 运 行 大 型 程序 的 
计算 机 ， 一 般 通 过 网 络 
访问 。 


超级 计算 机 : 具有 最 高 性 
能 和 最 高 成 本 的 一 类 计算 
机 ， 一 般配 置 为 服务 器 ， 
需要 花费 数 千 万 甚至 数 亿 
美元 。 


terabyte : 原始 的 定义 为 
1 099 511 627 776 (2”) 字 
节 ， 但 在 通信 和 二 级 存储 
系统 领域 又 用 terabyte 代 
表 1 000 000 000 000(102) 
字 节 。 为 了 避免 混淆， 我 
们 使 用 术语 tebibyte ( TiB) 
表示 24 字 节 ， 而 terabyte 
表示 102 字 节 。 图 1-1 给 
出 了 十 进 制 和 二 进 制 下 相 
关 术 语 的 范围 。 


媒 入 式 计算 机 : 网 入 到 其 
他 设备 中 的 计算 机 ， 运 行 
预先 定义 的 一 个 应 用 或 者 
一 组 软件 - 


计算 机 的 埠 刻 与 投 灰 3 





起 ， 以 单一 系统 的 方式 交付 用 户 使 用 。 因 此 ， 尽 管 戏 入 式 计 算 机 数量 庞大 ， 但 是 很 多 用 户 从 
来 没有 意识 到 他 们 正在 使 用 的 其 实 是 计算 机 1 ” 








kilobyte KB 103 kibibyte KiB 2 



































megabyte MB 10*。 | mebibyte MiB 22 5% 
ggabyte GB 10° Ebibyte GiB 2m 7% 
terabyte TB 102 tebibyte TB 2%° 10% 
petabyte PB 105 pebibyte PiB | 2 13% 
exabyte EB 410 exbibyte EiB | 2° 15% 
zettabyte ZB | _ 30= zebibyte ZiB | 2 18% 
yottabyte Ye | 10* | yobibyte YiB | 加 21% 





图 1-1 2 与 10 字 节 之 间 的 歧义 通过 在 常用 容量 术语 后 面 添 加 一 个 二 进 制 标记 来 解决 。 最 后 一 
列表 示 二 进 制 术语 和 与 其 相应 的 十 进 制 术语 所 表示 的 数值 之 间 的 差距 >。 在 以 比特 (bit) 为 
单位 时 ， 这 些 前 缀 表示 同样 适用 ， 例 如 gigabit (Gb) 是 10%bit， 而 gibibit (Gib) 是 2bit 


移入 式 应 用 通常 只 有 单一 的 应 用 需求 ， 因 而 可 以 在 保证 达到 功能 最 低 要 求 的 前 提 下 严格 
控制 成 本 或 功 耗 。 以 音乐 播放 器 为 例 ， 因 为 需要 实现 的 功能 有 限 ， 处 理 器 可 以 设计 得 很 快 ， 
此 外 ， 降 低 成 本 和 功 耗 才 是 最 重要 的 设计 需求 。 除 了 降低 成 本 之 外 ,工人 式 计 算 机 对 可 靠 性 
还 有 较 高 的 要 求 ， 因 为 失效 会 给 用 户 带 来 不 便 〈 例 如 新 电视 机 死机 )， 甚 至 导致 贷 灭 性 的 灾难 
(例如 飞机 或 货船 失事 )。 因 此 ， 在 面向 消费 者 的 嵌入 式 应 用 (如 数字 家 电 ) 中 ， 一 般 通 过 简 
化 设计 来 提高 可 靠 性 一 一 其 重点 在 于 尽 可 能 地 保证 一 项 功能 的 正常 运转 。 而 大 型 嵌 人 式 系统 
则 可 以 采用 服务 器 领域 使 用 的 多 种 元 余 技术 来 提高 可 靠 性 。 尽 管 本 书 将 重点 放 在 通用 计算 机 
上 ,， 但 是 大 多 数 概念 可 直接 或 者 稍微 修改 之 后 用 于 嵌入 式 计算 机 。 

于 本 书 中 的 “ 精 解 ”( elaboration) 是 正文 中 的 一 些 段落 ， 用 来 对 读者 可 能 感 兴趣 的 
内 容 做 深入 介绍 。 由 于 后 续 内 容 的 理解 并 不 依赖 精 解 部 分 ， 因 此 不 感 兴趣 的 读者 可 以 直接 
跳 过 。 

许多 嵌入 式 处 理 器 在 设计 时 使 用 由 硬件 描述 语言 (如 Verilog 或 VHDL， 见 第 4 章 ) 描述 
的 处 理 器 核 ， 这 使 得 设计 者 能 够 面向 特定 应 用 将 其 他 专用 硬件 与 之 一 起 集成 在 一 块 芯片 上 。 





1.1.2 欢迎 来 到 后 PC 时 代 


技术 的 持续 进步 给 计算 机 硬件 带 来 了 革命 性 的 变化 ， 而 这 种 革命 性 的 变化 又 对 整个 信息 技 
术 工业 产生 了 震动 。 从 本 书 上 一 版 开始 ， 我 们 已 经 感受 到 一 种 变化 ， oe 
这 种 变化 的 重要 性 就 像 30 年 前 出 现 的 以 个 人 计算 机 为 代表 的 转折 点 一 | 轴 答 网上 的 小 各 多吉 站 
样 。 目 前 ， 代 震 PC 的 是 个 人 移动 设备 (Personal Mobile Device， | 备 ， 由 电池 供电 ， 通 过 下 
PMD)。PMD 由 电池 供电 ， 通 过 无 线 方式 接 人 因特网 ， 价 格 通常 只 | 载 App 安 装 坎 件 。 典 型 
有 数 百 美元 。 并 且 ,与 PC 一 样 ，PMD 可 下 载 软件 ( 即 “App”) 并 | 和 天 名 全 和 各 和 和 和 和 
运行 。 与 PC 不 同 的 是 ，PMD 没有 键盘 和 鼠标 ， 而 采用 触摸 屏 甚至 5 














日 与 个 人 计算 机 这 样 的 通用 计算 机 系统 不 同 ， 嵌 人 式 系统 通常 执行 的 是 带 有 特定 要 求 的 预先 定义 的 任务 。 因 
此 用 户 使 用 时 没有 使 用 通用 计算 机 的 体验 ， 而 感觉 是 在 使 用 一 个 “设备 ”。 一 一 译 者 注 

日 例如 kibibyte 中 的 “bi”。 一 一 译 者 注 

旧 例如 2% 表示 二 进 制 术语 表示 的 值 比 对 应 十 进 制 术语 表示 的 值 大 了 2%。 





译 者 注 






































4 项 1 间 





语音 作为 输入 。 今 天 的 PMD 可 以 是 智能 手机 或 平板 电脑 ， 而 明天 的 PMD 还 可 能 会 包括 电 
子 眼镜 。 图 1-2 给 出 了 平板 电脑 和 智能 手机 与 PC 和 传统 手机 增长 速度 的 对 比 。 


1400 
1200 
手机 ( 不 包括 智能 手机 ) 


1000: 








六 800 
智能 手机 
到 600 
0 FC ( 不 包括 平板 电脑 ) 
200 
一 一 平板 电脑 


2007 2008 2009 2010 2011 2012 年 份 
图 1-2 平板 电脑 和 智能 手机 与 PC 和 传统 手机 的 年 产量 对 比 。 平 板 电 脑 和 智能 手 
机 是 后 PC 时 代 的 产物 。 智 能 手机 反映 了 手机 工业 近期 的 增长 情况 ， 其 产 
量 在 2011 年 超过 了 PC 的 产量 。 平板 电脑 产量 增长 最 快 ，2011 至 2012 年 
间 几 乎 翻 了 一 番 。 而 近年 来 ，PC 和 传统 手机 的 产量 则 保持 不 变 甚至 在 下 降 


云 计算 (cloud computing) 能 够 取代 传统 的 服务 器 ， 依 赖 于 被 称 | 云 计算 ， 指 通过 因特网 提 
为 仓储 式 计算 机 ( Warehouse Scale Computer，WSC) 的 巨型 数据 中 | 供 服务 的 大 规模 服务 器 集 
心 。 类 似 Amazon 和 Google 这 样 的 公司 构建 了 包含 100 000 台 服 务 “| 群 ， 一 些 运营 商 可 以 动态 
器 的 WSC， 并 将 其 中 一 部 分 租借 给 其 他 公司 。 这 样 一 来 ， 这 些 租用 | 党 六 不 全 于 务 加 
WSC 的 公司 就 可 以 为 PMD 提供 软件 服务 ， 而 不 用 自己 构建 WSC。 
就 像 PMD 和 WSC 是 革命 性 的 硬件 产业 一 样 ， 通 过 云 计 算 实现 的 软 
件 即 服务 (Software as a Service, SaaS) “也 革命 性 地 影响 了 软件 工业 pl et 


提供 软件 和 数据 作为 服 
的 发 展 。 当 今 的 软件 开发 者 通常 令 其 设计 的 应 用 一 部 分 运行 在 PMD | 务 ， 通 过 诸如 运行 在 本 地 
上 ， 另 一 部 分 运行 在 云 平台 上 。 客户 端的 浏览 器 等 小 程序 

使 用 服务 ， 不 需要 在 本 地 
1.1.3 ”你 能 从 本 书 中 学 到 什么 设备 上 安装 和 运行 所 有 的 


二 进 制 代码 。 典 型 的 例子 
成 功 的 程序 员 总 是 关心 程序 的 性 能 ， 因 为 能 否 让 用 户 快速 得 到 | 如 Web 搜索 和 社交 网 络 。 


结果 是 软件 成 功 与 否 的 关键 。 在 20 世纪 六 七 十 年 代 ， 限 制 计算 机 性 
能 的 主要 因素 是 内 存 容 量 。 那 时 候 ， 程 序 员 所 遵循 的 一 个 简单 原则 就 是 : 尽量 少 占用 内 存 空 
间 ， 以 加 速 程序 的 执行 。 然 而 ， 近 十 年 来 ， 计 算 机 设计 和 内 存 技术 的 长 足 进步 ， 使 得 在 除 嵌 
人 式 系统 之 外 的 大 多 数 应 用 中 ， 内 存 容量 对 性 能 的 影响 大 大 降低 了 。 
对 于 那些 关心 性 能 的 程序 员 而 言 ， 必 须 明确 的 一 点 是 : 20 世纪 60 年 代 的 简单 存储 模型 
对 程序 性 能 的 影响 已 经 被 处 理 器 的 并 行 性 和 存储 的 层次 性 取代 了 。 在 本 书 的 第 3 一 6 章 中 ， 
我 们 将 通过 展示 如 何 将 一 个 C 程序 的 性 能 提高 200 倍 来 阐述 这 一 点 。 此 外 ， 当 今 的 程序 员 需 
要 考虑 PMD 或 云 上 所 运行 的 程序 能 效 ， 因 此 他 们 应 当 了 解 代码 之 下 的 很 多 细节 ( 见 1.7 节 )。 
日 ”Saas 是 一 种 通过 因特网 提供 软件 的 服务 模式 ,运营 商 将 应 用 软件 统一 部 署 在 自己 的 服务 器 上 ， 客 户 可 以 


根据 自己 的 实际 需求 ， 通 过 互联 网 向 厂商 定购 所 需 的 应 用 软件 服务 ， 按 定购 的 服务 多 少 和 时 间 长 短 向 厂商 
支付 费用 ， 并 通过 互联 网 获得 厂商 提供 的 服务 ， 而 不 需要 自己 安装 和 运行 软件 。 一 一 译 者 注 
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而 那些 期 望 开发 出 有 竞争 力 的 软件 版 本 的 程序 员 则 更 应 当 加 强 对 计算 机 组 成 原理 的 了 解 。 
我 们 很 荣幸 有 此 机 会 为 读者 揭 开 计算 机 的 神秘 面纱 ， 亲 述 机 箱 覆 盖 之 下 的 软 硬 件 是 如 何 
工作 的 。 当 你 读 完 本 书 之 后 ， 我 们 相信 你 将 能 够 回答 下 面 的 问题 : 
。 用 C 或 Java 等 高 级 语言 编写 的 程序 如 何 转变 为 机 器 语言 ? 硬件 如 何 执行 程序 ?理解 
这 些 概念 是 理解 软 硬 件 两 者 如 何 影响 程序 性 能 的 基础 。 
。 什么 是 软 硬 件 之 间 的 接口 ? 软件 如 何 指导 硬件 完成 所 需 功 能 ?这 些 概念 对 于 许多 软件 
的 编写 是 至 关 重 要 的 。 
。 哪些 因素 决定 了 程序 的 性 能 ?程序 员 如 何 才能 提高 程序 性 能 ?从 本 书 中 我 们 将 了 解 
到 ， 程 序 性 能 取决 于 原始 程序 、 将 程序 转换 为 机 器 语言 的 软件 以 及 执行 程序 的 硬件 。 
。 什么 技术 可 供 硬件 设计 者 用 于 提高 性 能 ? 本 书 将 介绍 现代 计算 机 设计 的 基本 理念 。 
对 此 有 兴趣 的 读者 可 深入 阅读 我 们 的 另 一 本 进 阶 教材 《计算 计 体系 结构 : 量化 研究 
方法 》。 
。 什 么 技术 可 供 硬件 设计 者 用 于 改进 能 效 ? 什么 技术 可 供 (软件 ) 程序 员 提 高 或 降低 
能 效 ? 
。。 为 什么 近来 串 行 处 理发 展 为 并 行 处 理 ? 这 种 发 展 带 来 的 结果 | 多 核 微 处 理 器 ， 在 一 决 条 
是 什么 ? 本 书 给 出 了 这 种 发 展 变化 的 动机 ， 交 述 了 支持 并 “| 成 电路 上 包含 多 个 处 理 器 
行 处 理 的 硬件 机 制 ， 并 对 新 一 代 的 多 核 微 处 理 器 ( multicore | ( 核 ) 的 短处 理 器 
microprocessor)( 见 第 6 章 ) 进行 了 评述 。 
。 自 1951 年 的 第 一 台 商用 计算 机 开始 ， 计 算 机 架构 师 们 提出 的 哪些 伟大 思想 构成 了 现 
代 计算 的 基础 ? 
如 果 无 法 理解 这 些 问题 ， 那 么 要 在 现代 计算 机 上 提升 程序 性 能 ， 或 者 要 评估 面向 特定 应 
用 时 哪 种 计算 机 性 能 更 好 ， 将 会 是 反复 试验 和 错误 的 复杂 过 程 ， 而 不 是 一 个 深入 分 析 和 洞察 
的 科学 过 程 。 
本 书 第 1 章 为 其 余 各 章 葛 定 了 良好 的 基础 ， 介 绍 了 计算 机 中 的 一 些 基本 概念 和 定义 ， 指 
出 了 如 何 正确 地 剖析 软 硬 件 、 如 何 评价 性 能 和 功 耗 ， 还 介绍 了 集成 电路 (计算 机 革命 背后 的 
推动 力 ) 技术 ， 并 在 最 后 解释 了 技术 发 展 向 多 核 迁 移 的 原因 。 
在 本 章 和 后 面 几 章 里 ， 读 者 会 看 到 许多 新 的 名 词 ， 或 者 曾 听 过 
却 不 知道 含义 。 但 不 用 惊慌 ! 在 描述 现代 计算 机 时 ， 确 实 会 过 到 很 | 总 生生 站 思 下 
多 专用 术语 ， 但 这 些 术语 恰恰 能 帮助 我 们 精确 地 描述 计算 机 的 功能 “| 连 构 成 。 急 如 , RAM 是 
和 性 能 。 此 外 ， 计 算 机 设计 人 员 (包括 本 书 作者 ) 喜欢 用 首 字母 缩 队 | 时 机 访问 存储 器 (Random 
词 (acronym) 来 代表 一 些 术语 ， 只 要 了 解 每 个 字母 代表 的 含义 ， 就 a Ne 
很 容易 理解 。 为 了 帮助 读者 查找 和 识 记 ， 在 这 些 术语 第 一 次 出 现时 ， (conwa process Unit) 的 
我 们 将 其 加 粗 标记 并 给 出 定义 。 熟 悉 一 段 时 间 后 ， 你 就 能 熟练 地 | 编写 。 
正确 使 用 这 些 术语 的 缩写 了 ， 例 如 BIOS、CPU、DIMM、DRAM、 
PCIe、SATA 等 。 
为 了 深入 理解 软件 和 硬件 对 程序 运行 性 能 的 影响 ， 我 们 特别 在 全 书 中 增加 了 “理解 程序 
性 能 ”的 部 分 ， 将 对 程序 性 能 有 重要 影响 的 因素 加 以 提炼 总 结 。 下 面 就 是 本 书 中 的 第 一 个 。 
汪汪 重 例 | 程序 的 性 能 取决 于 以 下 各 因素 的 组 合 : 程序 所 用 的 算法 ， 创 建 程序 并 将 
其 翻译 成 机 器 指令 的 软件 系统 ， 以 及 执行 机 器 指令 (可 能 包括 IO 操作 ) 的 计算 机 。 下 表 总 
结 了 硬件 和 软件 对 性 能 产生 的 影响 。 
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算法 决定 了 源码 级 语句 的 数量 和 /0 操作 的 数量 其 他 书 




















IL 编程 语言 、 编 译 器 和 体系 结构 决定 了 每 条 源码 级 语句 对 应 的 机 器 指令 数量 第 2、3 章 
处 理 器 和 存储 系统 决定 了 指令 的 执行 速度 第 4、5、6 章 
VO 系统 ( 硬件 和 操作 系统 ) 决定 了 W/O 操作 可 能 的 执行 速度 第 4、5、6 章 





为 了 论证 本 书 所 述 思 想 的 作用 ， 我 们 在 不 同 章节 中 采用 不 同 的 技术 对 一 个 矩阵 和 向 量 相 
乘 的 C 程序 进行 不 断 的 优化 。 这 些 优化 步骤 可 以 帮助 我 们 逐步 理解 现代 微 处理 器 中 的 硬件 是 
如 何 工 作 的 ， 以 及 最 终 如 何 使 性 能 提高 200 倍 ! 这 些 优化 包括 : 
。 第 3 章 的 数据 级 并 行 部 分 ， 通 过 C 语言 的 内 联 函 数 ， 使 用 子 字 并 行将 性 能 提高 3.8 倍 。 
。 第 4 章 的 指令 级 并 行 部 分 ， 使 用 循环 展开 充分 利用 硬件 的 多 指令 发 射 和 乱 序 执行 特 
性 ， 使 性 能 再 提高 2.3 倍 。 

e 第 5 章 的 存储 器 层次 结构 优化 部 分 ， 使 用 阻塞 cache 技术 将 大 型 矩阵 处 理性 能 再 提高 
2 一 2.5 倍 。 

e 第 6 章 的 线程 级 并 行 部 分 ， 在 OpenMP 中 通过 循环 并 行 化 充分 利用 硬件 的 多 核 特 性 ， 
使 性 能 再 提高 4 一 14 倍 。 








1.2 计算 机 体系 结构 中 的 8 个 伟大 思想 

下 面 介绍 计算 机 架构 师 在 过 去 60 年 的 计算 机 设计 中 提出 的 8 个 伟大 思想 ， 这 些 思想 无 
不 影响 深远 。 时 至 今日 ， 架 构 师 在 设计 新 处 理 器 时 仍 会 延续 采用 这 些 思想 。 这 些 思想 将 贯穿 
本 章 以 及 后 续 章 节 。 


1.2.1 面向 摩尔 定律 的 设计 


计算 机 设计 者 面临 的 一 个 永恒 的 问题 就 是 凡 猜 吓 律 (Moore's Law)。 摩 尔 定律 指出 ， 集 
成 电路 上 可 容纳 的 晶体 管 数 每 18 一 24 个 月 翻 一 番 。 摩 尔 定律 是 Intel 公司 创始 人 之 一 Gordon 
Moore 在 1965 年 对 集成 电路 集成 度 做 出 的 预测 。 由 于 计算 机 设计 通常 需要 几 年 时 间 ， 因 此 项 目 
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结束 时 芯片 的 集成 度 较 之 项 目 开 始 时 ， 很 容易 翻 一 番 甚至 翻 两 番 。 像 双向 飞碟 射击 运动 员 一 样 ， 
计算 机 体系 结构 设计 师 应 当 预 测 设计 完成 时 的 工艺 和 技术 水 平 ， 而 不 是 设计 开始 时 的 工艺 。 


1.2.2 ”使 用 抽象 简化 设计 


计算 机 架构 师 和 程序 员 都 需要 开发 能 够 提高 效率 的 技术 ， 否 则 设计 周期 会 像 资源 规模 随 
摩尔 定律 增长 一 样 延长 。 提 高 硬件 和 软件 开发 效率 的 主要 技术 之 一 是 使 用 对 虹 (abstraction) 
来 表征 不 同 级 别 的 设计 。 从 而 ， 低 层 将 细节 隐藏 起 来 ， 呈 现 给 高 层 的 只 是 一 个 简化 的 模型 。 


1.2.3 ”加 速 大 概率 事件 


有 也 屁 层 件 (common case fast) 远 比 优化 小 概率 事件 更 能 提高 性 能 。 大 概率 事件 通 
常 比 小 概率 事件 简单 ， 因 而 更 易于 对 其 进行 优化 以 提高 性 能 。 加 速 大 概率 事件 意味 着 设计 者 
需要 知道 哪些 事件 是 经 常 发 生 的 ， 这 要 经 过 仔细 的 实验 与 测量 过 程 ( 见 1.6 节 )。 


1.2.4 通过 并 行 提高 性 能 


从 计算 诞生 开始 ， 计 算 机 架构 师 就 给 出 了 通过 并 行 执行 操作 来 提高 性 能 的 设计 方案 。 在 
本 书 中 将 会 看 到 许多 鼎 符 (parallel) 的 例子 。 


1.2.5 通过 流水 线 提高 性 能 


在 计算 机 体系 结构 中 .有 一 种 并 行 技术 非常 普遍 ， 这 种 技术 有 一 个 特殊 的 名 字 : 忠 演 煞 
(pipelining)。 例 如 ， 许 多 西部 电影 中 有 这 样 的 场景 ， 在 消防 车 出 现 之 前 ， 人 们 用 “水 桶 队列 " 
来 灭火 一 一 小 镇 居民 们 一 个 接 一 个 排 成 长 队 ， 接 力 将 水 桶 快速 从 水 源 传 至 火场 ， 而 不 是 让 每 
个 人 来 回 奔跑 运 水 灭火 。 


1.2.6 ”通过 预测 提高 性 能 


遵循 谚语 “求人 准许 不 如 求人 原谅 >， 下 一 个 伟大 的 思想 是 蔷 测 (prediction)。 假 设 预测 
错误 后 恢复 的 代价 不 大 ， 并 且 预 测 的 准确 率 相对 较 高 ， 那 么 通过 猜测 的 方式 提前 开始 工作 ， 
要 比 等 到 确定 知道 能 执行 时 才 启 动 要 效率 高 一 些 。” 


1.2.7 ”存储 器 层次 结构 


现 如 今 ， 计 算 机 价格 的 很 大 一 部 分 来 自 于 存储 器 的 开销 。 存 储 器 对 程序 执行 有 很 大 的 
影响 ， 其 速度 影响 着 程序 的 性 能 ， 其 容量 限制 着 解 题 的 规模 。 因 此 ， 程 序 员 总 是 希望 存储 器 
速度 更 快 、 容 量 更 大 、 价 格 更 便宜 。 计 算 机 架构 师 发 现 ， 通 过 吓 侨 器 层 活 晋 枸 ( hierarchy of 
memory) 可 以 来 缓解 这 些 相互 矛盾 的 需求 。 在 存储 器 层次 中 ， 位 于 顶层 的 存储 器 速度 最 快 、 
容量 最 小 ， 但 每 位 价格 最 昂贵 。 反 之 ， 处 于 最 底层 的 存储 器 速度 最 慢 、 容 量 最 大 ， 但 每 位 价 
格 最 便宜 。 第 5 章 中 介绍 的 cache 技术 可 以 给 程序 员 造 成 一 种 假象 ， 让 他 们 感觉 自己 所 使 用 
的 主 存 既 有 存储 器 层次 中 顶层 的 高 速度 ， 又 和 底层 存储 器 一 样 价格 便宜 量 又 足 。 


1.2.8 通过 宛 余 提高 可 靠 性 
计算 机 工作 时 不 仅 要 快 ， 还 要 稳定 可 靠 。 任 何 一 个 物理 器 件 都 有 可 能 失效 ， 因 此 可 以 通 
合 ”预测 也 体现 了 加 速 大 概率 事件 的 思想 。 一 一 译 者 注 
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过 增加 宛 余 器 件 的 方式 提高 系统 的 匡 电 渤 ( dependable)。 当 发 生 失 效 时 ， 宛 余 器 件 可 以 替代 
失效 器 件 并 帮助 检测 错误 。 例如， 牵引 式 挂车 后 轴 每 边 都 有 两 个 双 轮 胎 ， 当 一 个 轮胎 出 问题 
时 ， 另 一 个 轮胎 保证 卡车 仍然 可 以 继续 行使 。( 卡 车 司机 发 现 故障 后 ， 立 即 开 往 修理 厂 修复 























轮胎 ， 从 而 又 恢复 了 元 余 性 ,) 


1.3 程序 表象 之 下 


一 个 典型 的 应 用 程序 ， 如 字 处 理 程序 或 大 型 数据 库 系 统 ， 可 能 | 诗 于 ,全 于 
包括 数 百 万 行 代码 ， 并 依靠 丰富 的 软件 库 来 实现 复杂 的 功能 。 然 而 ， | 去 认 打 没 能 直 这 些 白 党 理 
计算 机 中 的 硬件 只 能 执行 极为 简单 的 低级 指令 。 从 复杂 的 应 用 程 | 解 他 们 自己 的 语言 
序 到 简单 的 指令 ， 需 要 经 过 几 个 软件 层次 来 将 高 层 的 操作 (高 级 语 “| Mak ma Tie more 


言 描述 ) 逐步 解释 或 翻译 成 简单 的 计算 机 指令 。 这 也 是 伟大 思想 兽 “”“” 


流 的 一 个 典型 例子 。 系统 软件 : 提供 常用 服务 的 
图 1-3 给 出 了 这 些 软 件 的 层次 结构 ， 最 外 层 是 应 用 软件 ， 中 心 “| 软件 ， 包 格 操 作 系统 、 编 
是 硬件 ， 各 种 系统 软件 (systems software) 位 于 两 者 之 间 。 征用 v 加 并 扣 和 江 缚 各 和 


图 1-3 简化 的 硬件 和 软件 层次 图 ， 
中 心 是 硬件 ， 最 外 层 是 应 用 
软件 。 在 复杂 的 应 用 中 ,应 
用 软件 通常 又 有 多 个 层次 。 
例如 ， 一 个 数据 库 系 统 运行 
于 系统 软件 之 上 ， 而 系统 软 
件 上 运行 的 某 个 应 用 可 能 又 
反 过 来 运行 在 该 数据 库 之 上 





系统 软件 有 很 多 种 ， 其 中 有 两 种 对 现代 计算 机 系统 来 说 是 最 重 
要 的 : 操作 系统 和 编译 器 。 操 作 系 统 (operating system) 是 用 户 程序 
和 硬件 之 间 的 接口 ， 为 用 户 提供 各 种 服务 和 管理 功能 。 操 作 系统 最 
重要 的 作用 包括 : 

。 处 理 基本 的 输入 /输出 操作 。 

e 分 配 内 存 和 外 存 。 

e 为 多 个 同时 运行 的 应 用 提供 计算 机 资源 的 共享 和 保护 。 
当前 主要 使 用 的 操作 系统 有 Linux、iOS 和 Windows。 


操作 系统 : 为 了 使 程序 更 
好 地 在 计算 机 上 运行 而 管 
理 计算 机 资源 的 监管 程序 。 














编译 器 ( compiler) 完成 另外 一 项 重要 功能 : 将 用 高 级 语言 (如 
C、C++、Java 或 Visual Basic 等 ) 编写 的 程序 翻译 成 硬件 能 执行 的 
指令 。 现 代 编 程 语言 功能 强大 ， 而 硬件 却 只 能 执行 简单 的 指令 。 因 
此 ， 翻 译 过 程 相当 复杂 ， 本 章 仅 作 概述 ， 第 2 章 中 再 深入 介绍 。 


从 高 级 语言 到 硬件 语言 


控制 电子 设备 时 ， 首 先 要 向 其 发 送 电 信号 。 对 于 计算 机 来 说 ， 最 简单 的 信号 是 通 (on) 和 断 
(off)。 因 此 ,计算机 的 字母 表 只 需 两 个 字母 。 正 如 英语 的 26 个 字母 可 以 随意 组 合 、 写 多 少 不 受 


编译 器 ; 将 高 级 语言 语句 
翻译 为 汇编 语言 语句 的 
程序 。 
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限制 一 样 ， 计 算 机 的 两 个 字母 也 可 以 随意 组 合 。 代 表 这 两 个 字母 的 符 | 二进制 位 ， 也 称 为 比特 
号 是 0 和 1， 我们 通常 认为 计算 机 语言 就 是 以 2 为 基数 的 数 或 称 为 二 进 ”| (bit)。 基 上 歼 为 2 的 数字 中 
制 数 (binary number)， 其 中 每 个 字母 是 一 个 二 进 制 位 (binary digit) 或 “| 90 区 ，， 攻 信忠 的 要 本 
称 为 一 个 比特 (bit)。 计 算 机 服从 于 我 们 的 命令 ， 即 指令 ( instruction)。 

指令 是 能 被 计算 机 识别 并 执行 的 二 进 制 位 串 。 例 如 ， 位 串 

1000110010100000 
的 含义 是 告诉 计算 机 将 两 个 数 相 加 。 第 2 章 将 解释 为 什么 我 们 用 数 
字 同 时 表示 指令 和 数据 。 使 用 数字 既 表述 指令 又 表示 数据 是 计算 机 的 基础 。 

第 一 代 程 序 员 直接 使 用 二 进 制 数 与 计算 机 交互 ， 工 作 起 来 非常 枯燥 ， 以 至 于 人 们 很 快 发 
明了 一 种 接近 于 人 类 思维 方式 的 助 记 符 表示 。 起 初 ， 助 记 符 由 手工 翻译 成 二 进 制 ， 过 程 仍然 
繁琐 。 随 后 人 们 又 开发 了 专门 的 软件 将 助 记 符 自动 翻译 成 对 应 的 二 
进 制 ， 利 用 计算 机 来 帮助 生成 计算 机 程序 ， 这 种 特殊 的 软件 被 称 为 
汇编 器 ( assembler)。 汇 编 器 将 助 忆 符 表示 的 指令 翻译 为 对 应 的 二 进 
制 串 。 例 如 ， 程 序 员 写 下 

ADD A,B 
汇编 器 将 该 助 忆 符 表示 的 指令 翻译 为 

1000110010100000 
该 指令 告诉 计算 机 将 A 和 3 两 数 相 加 。 这 种 符号 语言 的 名 称 沿 用 至 [en 
今 ， 即 汇编 语言 (assembly language)。 而 机 器 可 以 理解 的 二 进 制 语 | 记 符 表示 。 

言 被 称 为 机 器 语言 (machine language)。 

虽然 助 忆 符 的 发 明 是 一 个 巨大 的 进步 ， 但 汇编 语言 仍然 与 科学 
家 想 用 来 模拟 流体 流动 或 会 计 师 想 用 来 结算 账目 所 使 用 的 符号 相去 
甚 远 。 汇 编 语 言 要 求 程 序 员 将 计算 机 需要 执行 的 指令 逐条 写 出 来 ， 
因而 要 求 程序 员 要 像 计算 机 一 样 思考 。 高地 编程 语言; 如 CCGH、 

通过 编写 一 个 程序 来 将 更 强大 的 高 级 语言 翻译 成 计算 机 指令 是 | Ja Visual Busic 等 可 区 
计算 机 发 展 早期 的 重大 突破 。 高 级 编程 语言 (high-level programming | 植 的 语言 ， 由 一 些 单词 和 
language) 及 其 编译 器 极 大 地 提高 了 软件 的 生产 率 和 软件 质量 。 图 1-4 | 代数 符号 组 成 ， 可 由 编译 
展示 了 这 些 程序 和 语言 之 间 的 关系 ， 这 是 锯 北 思想 的 典型 应 用 。 i 

编译 器 允许 程序 员 使 用 高 级 语言 编写 表达 式 ， 如 : 

A+B 

然后 将 其 编译 为 相应 的 汇编 语言 语句 ， 如 : 

ADD A,B 


然后 ， 由 汇编 器 将 该 语句 翻译 为 二 进 制 指令 ,告诉 计算 机 将 A、B 两 数 相 加 。 

高 级 编程 语言 有 多 个 优点 。 第 一 ， 人 允许 程序 员 用 更 接近 自然 语言 的 方式 来 思考 ， 用 英文 
和 代数 符号 来 表示 ， 这 样 程序 看 起 来 更 像 文本 而 不 是 密码 符号 表 ( 见 图 1-4 )。 此 外 ， 人 们 可 
以 根据 用 途 来 开发 高 级 语言 ， 例 如 ，Fortran 为 科学 计算 而 设计 ，Cobol 用 于 商业 数据 处 理 ， 
Lisp 用 于 符号 操作 ， 等 等 。 还 有 一 些 特定 领域 的 语言 只 为 少数 专业 人 群 设计 ， 例 如 流体 仿真 
领域 使 用 的 语言 。 


指令 : 计算 机 硬件 所 能 理 
解 并 执行 的 命令 


汇编 器 : 将 指令 由 助 记 符 
形式 翻译 成 二 进 制 形式 的 
程序 。 





机 器 语言 : 机 器 指令 的 二 
进 制 表示 。 
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swap(int v[], int k) 
高 级 语言 程序 {int temp; 
{C 语 temp = v[k]: 
和 V[k] = v[k+1]; 
v[k+1] = temp: 
} 


本 


co 


swap: 
ESE X10 X13 

汇编 语言 程序 ADD X10，Xx0,.X10 

(ARMv8 指 令 集 ) LDUR X9, [X10,0] 
LDUR X11,[X10,8] 
STUR X11,[X10,0] 
STUR X9, [X10,8] 
BR x10 


上 
《cas 


00000000101000100000000100011000 
00000000100000100001000000100001 
10001101111000100000000000000000 

二 进 制 机 器 语言 程序 10001110000100100000000000000100 
(ARMv8 指 令 集 ) ”10101110000100100000000000000000 
10101101111000100000000000000100 
00000011111000000000000000001000 


图 1-4 C 程序 经 编译 转换 为 汇编 语言 ， 再 经 汇编 转换 为 二 进 制 机 器 语言 。 虽 然 如 图 中 所 
示 ， 将 高 级 语言 翻译 成 二 进 制 机 器 语言 需要 两 步 ， 但 一 些 编译 器 可 能 将 中 间 结果 略 
去 ， 直 接 产生 二 进 制 的 机 器 语言 。 第 2 章 将 对 该 例 中 的 语言 和 程序 进行 详细 分 析 
第 二 ， 高 级 语言 提高 了 程序 员 的 生产 率 。 如 果 用 较 少 的 语句 就 能 表达 意图 ， 那 么 用 这 样 
的 语言 编写 程序 可 以 缩短 软件 的 开发 周期 ， 这 是 软件 开发 人 员 的 共识 。 简 明 性 是 高 级 语言 相 
对 汇编 语言 最 明显 的 优势 。 
第 三 ， 高 级 语言 使 得 用 其 编写 的 程序 可 以 独立 于 开发 这 些 程序 的 计算 机 平台 ， 提 高 了 程 
序 的 可 移植 性 。 因 为 编译 器 和 汇编 器 能 够 把 高 级 语言 程序 翻译 成 任何 计算 机 的 二 进 制 指令 。 
高 级 编程 语言 的 这 些 优点 使 其 得 到 广泛 采用 。 现 如 今 ， 已 很 少 再 有 程序 使 用 汇编 语言 编写 了 。 


1.4 硬件 包装 之 下 
上 节 中 ,我 们 揭示 了 程序 表象 之 下 的 软件 ， 本 节 将 打开 计算 机 的 机 箱 学 习 其 中 的 硬件 。 
任何 一 台 计 算 机 的 硬件 都 要 完成 同样 的 基本 功能 : 输入 数据 、 输 出 数据 、 处 理 数据 和 存储 数 
据 。 如 何 实现 这 些 功能 是 本 书 的 主题 ， 后 续 各 章 将 分 别 对 这 四 项 任 
务 进行 讨论 。 | 
本 书 在 遇 到 需要 读者 牢记 的 重要 知识 点 时 ， 都 会 用 “重点 ”(big 
picture) 标题 加 以 强调 。 全 书 大 致 有 十 多 处 “重点 "， 第 一 个 是 计算 
机 完成 输入 、 输 出 、 处 理 和 存储 数据 任务 的 五 大 部 件 。 
计算 机 的 两 个 关键 部 件 是 输入 设备 (input device) 和 输出 设备 


输入 设备 ; 为 计算 机 输入 
信息 的 装置 ， 如 键盘 





输出 设备 : 将 计算 结果 传 
达 给 用 户 (如 显示 器 ) 或 
传达 给 其 他 计算 机 的 装置 。 
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(output device)， 例 如 麦克 风 是 输入 设备 ， 扬 声 器 是 输出 设备 。 顾 名 思 义 ， 输 入 设备 为 计算 
机 提供 数据 ， 输 出 设备 则 将 计算 结果 传送 给 用 户 。 像 无 线 网 络 等 设备 既是 输入 设备 又 是 输出 


设备 。 


第 5 章 和 第 6 章 将 详细 介绍 输入 /给 出 (IO) 设备 ， 本 章 由 外 部 UO 设备 开始 先 对 计算 


机 硬件 做 简单 介绍 。 


国 苯 ;组 成 计算 机 的 五 个 经 典 部 件 包括 输入 设备 、 输 出 设备 、 存 储 器 、 数 据 通路 8 和 控 
制 器 ， 其 中 最 后 两 个 部 件 通常 合 称 为 处 理 器 。 图 1-5 表示 了 一 台 计 算 机 的 标准 组 成 ， 该 组 成 
与 硬件 技术 无 关 。 任 何 一 台 计 算 机 (无 论 是 现在 的 还 是 过 去 的 ) 中 的 任何 部 件 都 归于 这 五 种 
之 一 。 为 了 加 深 读 者 对 这 一 重点 的 印象 ， 我 们 在 后 续 每 章 的 首页 都 会 给 出 此 图 ， 并 将 每 章 描 


述 的 部 件 在 图 中 突出 显示 。 


接口 


性 能 评价 





图 1-5 计算 机 的 五 大 部 件 。 处 理 器 从 存储 器 中 得 到 指令 和 数据 ， 输 入 设备 将 数据 写 人 存储 器 ， 输 出 设 


备 从 存储 器 中 读 出 数据 ， 控 制 器 产生 控制 信号 控制 数据 通路 、 存 储 器 、 


1.4.1 显示 器 


最 吸引 人 的 IO 设备 应 该 是 图 形 显示 器 了 。 大 多 数 个 人 移动 设 
备 都 用 液晶 显示 器 ( Liquid Crystal Display，LCD) 来 获得 轻巧 、 低 
功 耗 的 显示 效果 。LCD 本 身 并 不 能 发 光 >， 而 是 控制 光 的 传输 。LCD 
内 充满 了 棒状 的 液态 分 子 液晶 )， 这 些 分 子 可 以 形成 扭转 的 螺旋 线 ， 
弯曲 来 自 显示 器 背后 光源 产生 的 光线 或 者 少量 的 反射 光线 。 而 在 电 


名 也 称 运算 器 。 一 一 译 者 注 

















输入 设备 和 输出 设备 


选 过 计算 机 显示 器 ， 我 将 飞 
机 降落 在 一 个 移动 载体 的 甲 
板 上 ， 观 察 到 一 颗 核 粒 子 打 
到 势 也 中 ， 科 着火 箭 以 接近 
光 的 速度 飞行 ， 看 到 计算 机 
展现 最 深层 最 神秘 的 工作 

Jvan Sutheriand (半音 抽 图 形 

学 之 父 ) Scientific American， 
1984 


加 LCD 是 一 种 介 于 固态 与 液态 之 间 的 物质 ， 本 身 是 不 能 发 光 的 ,需要 借助 额外 的 光源 才 行 。 一 一 译 者 注 
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流 作用 下 ， 液 晶 分 子 会 变 直 ， 变 直 后 就 无 法 弯曲 光线 。 显 示 器 内 两 层 相互 垂直 的 偏光 板 之 间 
充满 了 液晶 材料 ， 当 液晶 分 子 弯曲 时 ， 光 线 才 能 通过 5。 今天， 大 多 数 LCD 采用 主动 矩阵 
(active matrix) 式 显示 ， 每 个 像素 都 对 应 一 个 晶体 管 ， 该 晶体 管 可 以 号 

2 站 了 液晶 显示 器 : 通过 对 一 种 
精确 地 控制 电流 ， 从 而 使 显示 器 呈现 清晰 的 图 像 。 彩 色 液晶 显示 屏 “| 竺 丈 的 泊 志 灯台 入 (六) 
中 ， 每 个 像素 由 红 绿 蓝 三 个 液晶 共同 构成 ， 三 个 液晶 的 不 同 亮度 组 | 薄 层 施加 电压 来 控制 光线 
合 决定 了 最 后 画面 的 色彩 效果 =*。 因 此 ， 彩 色 主动 矩阵 式 LCD 中 ， 每 “| 穿 造 或 阻 断 的 显示 技术 。 
个 像素 点 需要 三 个 晶体 管 开 关 ， 分 别 控制 三 种 不 同 颜色 的 液晶 。 

图 像 由 像素 ( pixel) 矩阵 组 成 ， 也 可 以 表示 成 二 进 制 位 的 矩阵 ， | 主动 起 阵 式 显示 ， 液 品 吐 
称 为 位 图 。 针 对 不 同 的 屏幕 尺寸 及 分 辩 率 ， 和 矩阵 大 小 和 显示 器 的 尺 | 示 技 术 的 一 种 ， 使 用 面体 
寸 以 及 分 辩 率 相关 ， 典 型 的 矩阵 大 小 在 1024x 768 到 2048 x 1536 之 “| 管控 制 单个 像素 上 光线 的 
间 。 彩 色 显 示 器 使 用 8 位 来 表示 每 个 三 原色 ( 红 、 绿 和 蓝 )， 每 个 像 | 从- 

素 有 24 位 ， 可 以 显示 百 万 种 不 同 的 颜色 。 

计算 机 硬件 采用 光 栖 刷新 缓冲 区 (又 称 为 帧 缓冲 区 ) 来 保存 位 | 像素 :最 小 的 独立 图 像 单 

图 以 支持 图 像 显示 。 要 显示 的 图 像 保 存在 帧 缓冲 区 里 ， 每 个 像素 的 “| 元 。 屏 其 由 成 千 上 万 的 人 


二 进 制 位 模式 (二进制 值 ) 以 刷新 频率 读 出 到 显示 设备 。 图 1-6 显示 “| 末 榨 和 形式 榴 记 ， 
了 一 个 简化 后 每 像素 只 有 4 位 的 帧 缓冲 区 。 
帧 缓冲 区 
光栅 扫描 CRT 显 示 器 
mm 
W 
Xi 





图 1-6 左边 帧 缓冲 区 中 的 每 个 坐标 决定 了 右边 光栅 扫描 CRT 显示 器 中 相 
应 坐标 的 灰 度 。 像 素 (加 ，Y。 ) 的 二 进 制 位 模式 是 0011， 其 表示 的 
灰 度 比值 为 1101 的 像素 ( 乓 ， 矿 ) 所 表示 的 灰 度 要 浅 


使 用 位 图 的 目的 是 希望 能 在 屏幕 上 如 实地 显示 要 呈现 的 图 像 。 人 眼 可 以 分 辨 出 屏幕 上 细 
小 的 变化 ， 因 此 ， 图 像 显示 技术 是 极 富 挑战 性 的 。 


1.4.2 ”触摸屏 


当 PC 还 在 使 用 LCD 时 ， 后 PC 时 代 的 平板 电脑 和 智能 手机 已 使 用 触摸 屏 代 替 了 键盘 
和 鼠标 。 触 摸 屏 提 供 了 良好 的 用 户 界面 用户 可 以 直接 指向 感 兴趣 的 内 容 ， 而 不 需要 使 用 
鼠标 。 

触摸 屏 有 多 种 实现 方式 ， 许 多 平板 电脑 都 采用 电容 感应 式 触摸 屏 。 人 体 本 身 是 导电 性 
的 ， 如 果 绝 缘 材 料 (如 玻璃 ) 上 覆盖 了 一 层 透 明 的 导体 ， 当 人 的 手指 接触 到 屏幕 时 就 会 使 屏 


日 ”典型 的 LCD 中 ,液晶 在 电压 作用 下 状态 发 生变 化 ， 呈 扭转 状态 或 竖立 状态 ， 通 过 透 光 或 遮光 导致 显示 屏 且 


现 白色 或 黑色 。 一 一 译 者 注 
日 。 单 色 液晶 显示 屏 中 ， 一 个 液晶 就 是 一 个 像素 。 一 一 译 者 注 
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幕 的 静电 场 发 生变 化 ， 进 而 导致 电容 发 生变 化 。 这 种 技术 允许 同时 接触 多 个 点 ， 可 以 识别 手 


势 ， 因 此 可 以 提供 更 吸引 人 的 用 户 界面 。 


1.4.3 ”打开 机 箱 


图 1-7 给 出 了 Apple iPad 2 平板 电脑 的 主要 组 成 部 件 。 不 难看 
出 ， 对 照 计算 机 系统 的 五 大 传统 部 件 ，LO 在 让 ad 中 占据 了 很 大 一 
部 分 。 这 些 IO 设备 包括 电容 性 多 触 点 LCD 、 前 置 摄像 头 、 后 置 摄 
像 头 、 麦 克 风 、 耳 机 插 孔 、 扬 声 器 、 加 速 计 、 陀 螺 仪 、WiFi 网 络 和 
蓝牙 网 络 。 而 数据 通路 、 控 制 器 和 存储 器 在 iPad 中 只 占 很 小 一 部 分 





集成 电路 : 也 称 为 芯片 ， 
由 几 十 至 数 百 万 甚至 数 
千 万 个 晶体 管 构成 。 


图 1-7 Apple iPad 2 A1395 的 组 成 部 件 。 中 间 是 iPad 的 金属 背 板 (中 心 是 一 个 左右 倒置 的 Apple 标 
志 )， 顶 部 是 电容 性 触摸 屏 和 LCD。 最 右边 是 3.8V、25Wh 的 锂 聚合 物 电 池 ， 包 含 三 块 锂 离子 
电池 芯 ， 可 供电 10 小时。 最 左边 是 将 LCD 固定 在 iPad 背 板 上 的 金属 外 壳 。 金 属 背 板 周围 的 
小 部 件 组 成 了 我 们 熟知 的 计算 机 ， 它 们 于 电池 旁边 的 金属 壳 内 呈 工 形 排 布 。 图 1-8 放大 显示 了 
金属 外 壳 左 下 方 工 形 的 逻辑 主板 ， 上 面 集成 有 处 理 器 和 存储 器 。 位 于 该 电路 板 下 方 的 小 方块 中 
包含 一 块 提 供 无 线 通信 ( WiFi、 蓝 牙 和 FM 调频 调谐 器 ) 的 芯片 ， 可 以 插 在 逻辑 主板 左下 角 的 
插 槽 中 。 背 板 左上 角 是 另外 一 个 工 形 部 件 ， 它 是 前 置 摄像 组 件 ， 包 括 摄像 头 、 耳 机 插 孔 和 麦克 
风 -。 背 板 右 上 角 的 电路 板 包含 音量 控制 、 静 音 / 屏幕 旋转 锁定 按钮 、 加 速 计 和 陀螺 仪 ， 后 两 个 
组 件 使 得 ipad 可 以 识别 6 轴 运 动 。 该 电路 板 旁边 的 小 方块 是 后 置 摄像 头 。 背 板 右 下 角 是 L 形 
的 扬声器 组 件 ， 底 部 的 电缆 用 于 将 逻辑 主板 和 相机 /音量 控制 电路 板 相连 。 电 缆 和 扬声器 组 件 
之 间 的 电路 板 是 电容 性 触摸 屏 的 控制 器 (本 图 由 iFixit 提供 ，www.ifixit.com”) 


图 1-8 中 的 一 个 个 小 方块 是 集成 电路 (integrated circuit)， 俗 称 
芯片 ( chip)， 是 推动 计算 机 发 展 的 关键 技术 。 图 中 间 的 芯片 标 有 A5 
字样 ， 芯 片 中 包含 一 个 主 频 为 1GHz 的 双核 ARM 处 理 器 。 处 理 器 
是 计算 机 中 最 活跃 的 部 分 ， 它 按照 程序 中 的 指令 运行 ， 对 数据 进行 
运算 和 测试 ， 产 生 控 制 信号 操作 IO 设备 ， 等 等 。 有 时 ， 人 们 也 把 
处 理 器 称 为 中 央 处 理 单 元 (central processor unit)， 即 CPU - 


日 该 网 站 提供 了 很 多 设备 的 拆 解 过 程 。 一 一 译 者 注 


中 央 处 理 单元 ; 也 称 为 处 
理 器 ， 是 计算 机 中 最 活跃 
的 部 分 ， 包 括 数据 通路 和 
控制 器 ， 能 对 数据 进行 运 
算 和 测试 ， 能 产生 控制 信 
号 操作 LO 设备 ， 等 等 。 








图 1-8 图 1-7 中 Apple iPad 2 的 逻辑 主板 。 图 中 突出 了 五 块 集成 电路 。 中 间 最 大 的 集成 电路 是 Apple 
A5 芯片 ， 包 含 一 个 主 频 为 1GHz 的 双核 ARM 处 理 器 以 及 512MB 的 内 存 。 图 1-9 是 A5 中 处 
理 器 芯片 的 照片 。 本 图 右边 和 As 大 小 相当 的 芯片 是 一 块 32GB 非 易 失 闪存 两 块 芯 片 之 
间 保 留 间 用 于 安装 第 二 块 闪存 芯片 ， 以 便 扩 展 iPad 的 存储 容量 。A5 左边 的 芯片 包含 电源 
控制 和 IO 控制 芯片 (本 图 由 iFixit 提供 ，www.ifixit.com) 












二 


数据 通路 : 处 理 器 中 进行 
图 1-9 展示 了 一 款 微 处 理 器 的 内 部 细节 。 处 理 器 从 逻辑 上 包括 | 算术 运算 操作 的 部 分 
两 个 部 分 : 数据 通路 和 控制 器 ， 分 别 相 当 于 处 理 器 的 “肌肉 ”和 “大 a 
脑 " 。 数 据 通路 ( datapath) 负责 完成 算术 运算 ， 而 控制 器 ( control) | 应 的 各 外 各 挥 政 据 通 起 、 
则 负责 指导 数据 通路 、 存 储 器 和 1/O 设备 按照 程序 指令 的 要 求 协同 | 存储 器 和 IO 设备 协同 工 
工作。 第 4 章 将 详细 阐述 数据 通路 和 控制 器 作 的 部 分 





DDR 
SDRAM 
接口 





DDR SDRAM 接口 PLL WiFi 

图 1-9 A5 中 的 处 理 器 集成 电路 。 蕊 片 尺寸 为 12.1mm x 10.1mm, 采用 45nm 工艺 制造 ( 见 1.5 
节 )。 中 间 靠 左 的 部 分 是 两 个 相同 的 ARM 处 理 器 核 ， 左 上 角 的 四 分 之 一 部 分 是 具有 四 个 
数据 通路 的 PowerVR GPU ( Graphic Processor Unit， 图 形 处 理 单元 )，ARM 核 的 左下 角 
和 底部 是 A5 与 主 存 (DRAM) 的 接口 (本 图 由 Chipworks 提供 ，www.chipworks.com) 
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图 1-8 中 ，A5 芯片 的 封装 中 还 有 两 块 存储 器 (内 存 ) 芯片 ， 每 
块 容量 为 2gibibit， 共 512MiB。 程 序 运行 时 的 指令 和 数据 都 保存 在 
内 存 (memory) 中 。 内 存 由 DRAM 芯片 组 成 , DRAM 是 Dynamic 
Random Access Memory (动态 随机 访问 存储 器 ) 的 缩写 。 多 片 DRAM 
一 起 组 成 内 存 ， 存 放 程 序 运行 时 的 指令 和 数据 。 与 串 行 访 问 内 存 
(如 磁带 ) 不 同 的 是 ，DRAM 中 的 RAM 意味 着 无 论 数 据 处 于 存储 器 
的 哪个 位 置 ， 数 据 读 出 的 时 间 都 是 基本 相同 的 。 

处 理 器 内 部 还 有 另 一 种 类 型 的 存储 器 一 一 缓存 。 缓 存 (cache 
memory) 是 一 种 小 而 快 的 存储 器 ， 作 为 DRAM 的 缓冲 (cache 有 一 个 
非 技 术 性 的 定义 一 一 隐藏 事物 的 安全 地 方 )。cache 采用 的 是 另 一 种 存储 
技术 一 一 静态 随机 访问 存储 器 (Static Random Access Memory，SRAM)。 
相对 于 DRAM 而 言 ，SRAM 速度 更 快 ， 集 成 度 更 低 ， 因 此 价格 也 更 高 
( 见 第 5 章 )。SRAM 和 DRAM 对 应 了 国美 江 妆 攀 中 的 两 层 。 

如 前 所 述 , 址 葆 是 计算 机 设计 中 的 一 个 伟大 思想 。 而 最 重要 的 
抽象 之 一 就 是 硬件 和 底层 软件 之 间 的 接口 。 鉴 于 其 重要 性 ， 该 抽象 
层 被 命名 为 计算 机 的 指令 集体 系 结构 (instruction set architecture)， 或 
简称 体系 结构 。 指 令 集体 系 结构 包含 了 程序 员 正确 编写 二 进 制 机 器 
语言 程序 所 需 的 全 部 信息 ， 如 指令 、IO 设备 等 。 通 常 ， 操 作 系统 将 
IO 操作 、 内 存 分 配 和 其 他 底层 系统 功能 的 细节 封装 起 来 ， 程 序 员 无 
须 关心 这 些 细节 。 提 供给 应 用 程序 员 的 基本 指令 集 和 操作 系统 接口 
合 称 为 应 用 程序 二 进 制 接口 (Application Binary Interface，ABI)。 

指令 集体 系 结构 允许 计算 机 设计 者 独立 于 具体 硬件 讨论 功能 。 
譬如 ， 我 们 讨论 数字 时 钟 的 功能 (如 计时 、 显 示 时 间 、 设 置 闹钟 ) 
时 ， 可 以 不 涉及 时 钟 的 硬件 (如 石英 晶体 ,LED 显示 、 塑 料 按钮 等 )。 
计算 机 设计 者 将 体系 结构 与 该 体系 结构 的 实现 (implementation) 分 
开 考 虑 ， 这 一 点 本 质 上 遵循 了 同样 的 思路 : 硬件 实现 必须 遵循 体系 
结构 的 抽象 。 这 些 概念 产生 了 另 一 个 重点 。 

对 无 论 硬件 还 是 软件 都 可 以 抽象 成 多 个 层次 ,每 一 层次 
将 本 层 的 细节 对 上 层 隐 藏 起 来 。 抽 象 层 中 的 一 个 关键 接口 就 是 指令 
集体 系 结构 ， 即 硬件 和 底层 软件 之 间 的 接口 。 这 一 抽象 接口 使 得 同 
一 软件 可 以 运行 在 不 同 的 (硬件 ) 实现 上 。 也 就 是 说 ， 虽 然 不 同 的 
硬件 实现 在 成 本 、 性 能 上 可 能 各 不 相同 ， 但 由 于 遵循 相同 的 抽象 接 
口 一 一 指令 集体 系 结构 ， 因 此 都 可 以 支持 相同 软件 的 执行 。 


1.4.4 数据 的 安全 存储 


目前 为 止 ， 我 们 已 经 了 解 了 如 何 输入 数据 ， 如 何 使 用 这 些 数据 进 
行 计 算 ， 以 及 如 何 显示 结果 。 然 而 ， 一 旦 关 掉 计 算 机 的 电源 ， 所 有 数 
据 就 丢失 了 ， 因 为 计算 机 中 的 内 存 是 易 失 性 的 ( volatile)。 与 之 不 同 
的 是 ， 如 果 关 掉 DVD 机 的 电源 ,DVD 碟 片 上 记录 的 内 容 并 不 会 丢失 ， 
因为 DVD 采用 的 是 非 易 失 性 存储 (nonvolatile memory) 技术 。 


内 存 : 程序 运行 时 的 存储 
空间 ， 同 时 还 存储 程序 运 
行 时 所 需 的 数据 。 





DRAM: 动态 随机 访问 存储 
器 ， 集 成 电路 形式 的 存储 
器 ， 可 随机 访问 任何 地 址 
的 存储 内 容 。 访 问 时 间 大 
约 为 Sons， 在 2012 年 时 每 
gigabyte 售 价 5 一 10 美元 。 


储 器 ， 一 般 作 为 大 而 慢 的 


cache ; 一 种 小 而 快 的 存 
存储 器 的 线 存 。 


SRAM: 移 态 随机 访问 存储 
器 ， 集 成 电路 形式 的 存储 
器 ， 比 DRAM 速度 更 快 ， 
集成 度 更 低 。 


指令 集体 系 结构 : 也 叫 体 
系 结构 ， 是 硬件 和 底层 软 
件 之 间 的 抽象 接口 ， 包 含 
了 正确 编写 机 器 语言 程序 
所 需要 的 全 部 必要 信息 
如 指令 、 寄 存 器 、 访 存 和 
VO 等 


应 用 程序 二 进 制 接口 : 用 
户 部 分 的 指令 加 上 应 用 程 
序 员 调用 的 操作 系统 接口 ， 
定义 了 不 同 计算 机 平台 之 
间 的 二 进 制 兼容 标准 


实现 : 遵循 体系 结构 抽象 
的 硬件 。 


易 失 性 存储 器 : 仅 在 加 电 
时 保存 教 据 的 存储 器 ， 如 
DRAM. 





非 易 失 性 存储 器 : 在 挤 电 
时 仍 可 保存 数据 的 存储 
器 ,例如 DVD。 
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易 失 性 存储 器 存放 程序 运行 时 的 数据 和 指令 ， 非 易 失 性 存储 器 
存放 没有 运行 的 程序 和 数据 。 为 了 区 分 两 者 ,我 们 将 前 者 称 为 主 存储 
器 ( main memory) 或 一 级 存储 器 ( primary memory)， 将 后 者 称 为 二 
级 存储 器 (secondary memory) s。 二 级 存储 器 形成 了 志 早 里 层 淆 荣 灼 
中 ( 主 存 ) 下 面 更 低 的 一 层 。 自 1975 年 起 , DRAM 开始 在 主 存储 器 
中 占 主导 地 位 。 而 在 此 之 前 ,磁盘 ( magnetic disk) 早已 成 为 二 级 存 
储 器 中 的 主流 。 由 于 尺寸 和 形状 的 约束 ,个 人 移动 设备 中 使 用 闪存 
(flash memory) 一 一 一 种 非 易 失 性 半导体 存储 器 一 一 代替 磁盘 。 图 1-8 
所 示 的 iPad 2 中 的 芯片 上 包含 了 闪存 。 虽 然 比 DRAM 慢 , 但 闪存 比 
DRAM 便宜 得 多 ， 并 且 具 有 非 易 失 的 特性 。 与 磁盘 相 比 ， 闪 存 虽然 
每 位 价格 更 高 ， 但 在 体积 、 电 容 、 坚 固 性 和 能 耗 方 面 都 优 于 磁盘 。 因 
此 ， 闪 存 已 成 为 PMD 中 二 级 存储 器 的 标 配 。 遗 憾 的 是 ， 与 硬盘 和 
DRAM 不 同 ， 闪 存在 擦 写 100 000 ~ 1 000 000 次 之 后 就 容易 磨损 。 
因此 ， 文 件 系统 必须 记录 闪存 写 操作 的 次 数 ， 而 且 提供 有 效 的 机 制 以 
避免 磨损 ， 例 如 ， 将 经 常 访问 的 数据 移动 到 别 的 闪存 区 域 存储 。 第 5 
章 将 会 对 磁盘 和 闪存 进行 详细 一 述 。 

1.4.5 与 其 他 计算 机 通信 

我 们 已 经 介绍 了 如 何 输入 、 计 算 、 显 示 和 保存 数据 ， 但 还 有 一 
项 并 未 提 及 ， 就 是 计算 机 网 络 。 如 图 1-5 所 示 ， 在 计算 机 内 部 ， 处 
理 器 与 存储 器 和 IO 设备 连接 。 而 通过 网 络 ， 整 个 计算 机 也 可 以 与 
其 他 计算 机 通信 ， 从 而 扩展 计算 能 力 。 当 今 网 络 已 经 十 分 普遍 ， 成 
为 计算 机 系统 的 主干 。 一 台新 型 的 个 人 移动 设备 或 服务 器 如 果 没 有 
网 络 接口 将 是 十 分 可 笑 的。 联网 的 计算 机 具有 如 下 几 个 主要 优点 : 

。 通信 : 信息 在 计算 机 之 间 高 速 交 换 。 











主 存储 器 : 也 巴 一 级 存储 
器 ， 用 于 保存 运行 中 的 程序 
(指令 和 数据 )， 在 现代 计算 
机 中 一 般 由 DRAM 组 成 。 


二 级 存储 器 : 非 易 失 性 存 
储 器 ， 用 来 保存 两 次 运行 
之 间 的 程序 和 数据 。 在 
了 MD 中 一 般 使 用 闪存 ， 在 
服务 器 中 则 使 用 磁 瘟 。 


磁盘 ; 也 叫 硬盘 ， 非 易 失 
的 二 级 存储 器 ， 由 敌 盖 了 
磁 介 质 材料 的 旋转 瘟 片 构 
成 。 因 为 是 旋转 的 机 械 设 
备 ， 所 以 磁盘 的 访问 时 间 
大 约 是 5 一 20ms, 2012 年 
每 gigabyte 的 价格 大 约 为 
0.05 一 0.1 美元 。 


闪存 : 一 种 非 易 失 性 半 导 
体 存储 器 ， 单 位 价格 和 过 
度 均 低 于 DRAM， 但 高 
于 磁盘 。 其 访问 时 间 大 
芍 为 5 ~ 50ms, 2012 年 每 
gigabyte 的 价格 大 约 为 
0.75 一 1 美元 。 


@ 资源 共享 : 网 络 上 的 计算 机 可 以 共享 1/O 设备 ， 不 必 每 台 计 算 机 都 配备 IO。 


,®。 远程 访问 ; 通过 网 络 ， 用 户 可 以 远程 使 用 计算 机 。 

网 络 根据 距离 和 性 能 有 很 多 不 同 的 类 型 ， 而 通信 代价 随 信息 传 
输 的 速度 以 及 传输 的 距离 增长 。 最 普遍 的 网 络 类 型 是 以 太 网 ， 其 传 
输 距 离 可 达到 1 公里 ， 传 输 速率 可 达到 40Gbps。 根 据 传输 距离 和 速 
度 的 特点 ， 以 太 网 适合 用 于 将 一 栋 建筑 物 中 同一 层 的 计算 机 连接 起 
来 ， 这 就 形成 了 通常 所 说 的 局 域 网 ( Local Area Network，LAN) 的 
一 个 例子 。 局 域 网 通过 交换 机 进行 连接 ， 可 以 提供 路 由 服务 与 一 定 
的 安全 保护 。 广 域 网 ( Wide Area Network，WAN) 的 连接 范围 可 以 
跨越 大 陆 ， 是 因特网 的 骨干 网 ， 可 支持 万 维 网 ( Web)。 广 域 网 主要 
基于 光纤 实现 ， 由 电信 公司 对 外 租借 运营 。 


局 域 网 : 在 局 部 的 地 理 范 
国内 (例如 在 同一 株 建筑 
物 中 ) 传输 数据 的 计算 机 
通信 和 网络 。 


广域网 :能 够 跨 接 很 大 的 
物理 范围 ， 从 几 十 公里 到 
几 千 公里 ,或 跨越 大 陆 提 
供 远 距 离 通 信 。 


在 过 去 的 30 年 间 ， 随 着 性 能 的 大 幅 提升 和 应 用 的 普及 ,网 络 已 经 改变 了 计算 的 面貌。 


在 20 世纪 70 年 代 ， 很 少 有 人 接触 到 电子 邮件 ,因特网 和 Web 还 不 存在 ， 两 地 之 间 大 量 的 数 
据 传输 通过 邮寄 磁带 的 方式 实现 。 局 域 网 基本 没有 ， 而 少数 几 个 广域网 容量 很 小 且 访问 受 限 。 


日 或 辅 存 - 一 一 译 者 注 
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随 着 网 络 技术 的 进步 ， 网 络 变 得 越 来 越 便宜 ， 性 能 也 越 来 越 好 。 在 30 多 年 前 ， 第 一 代 
标准 局 域 网 (以 太 网 的 一 个 版 本 ) 的 最 大 容量 (也 称 为 带宽 ) 为 10Mbps， 只 能 供 几 十 台 计 算 
机 共享 。 而 今天 ， 局 域 网 所 能 提供 的 带宽 已 达到 1Gbps ~ 40Gbps。 与 此 同时 ， 光 通信 技术 促 
使 广域网 有 了 类 似 的 发 展 ， 带 宽 从 几 百 Kbps 到 Gbps， 互 联 的 计算 机 从 几 百 台 到 几 百 万 台 。 
网 络 规模 和 网 络 带 宽 的 急剧 增长 ， 使 得 网 络 技术 成 为 最 近 30 年 来 信息 革命 的 核心 推动 力 。 

最 近 10 年 来 ， 另 一 种 创新 型 网 络 技术 重 塑 了 计算 机 的 通信 方式 ， 这 种 技术 就 是 无 线 网 
络 。 随 着 无 线 网 络 的 普及 ， 后 PC 时 代 开 启 。 与 此 同时 ，CMOS 技术 ( 原 用 于 制造 无 线 电 设 
备 ) 用 于 制造 存储 器 和 微 处 理 器 ， 极 大 地 降低 了 成 本 ， 促 进 了 计算 机 数量 和 网 络 规模 的 爆炸 
式 增 长 。 当 前 无 线 通信 技术 (IEEE 标准 802.11 ) 支持 从 1Mbps 到 近 100Mbps 的 传输 速率 。 
与 有 线 网 络 不 同 的 是 ， 在 无 线 网 络 里 ， 电 波 被 同一 个 区 域 里 的 所 有 用 户 共享 。 













































1.5 “处理 器 和 存储 器 制造 技术 
处 理 器 和 存储 器 发 展 速度 惊人 ， 因 为 计算 机 设计 者 一 直 采用 最 新 的 电子 技术 进行 设计 ， 





以 期 设计 出 性 能 更 好 的 机 器 。 图 1-10 列 出 计算 机 发 展 过 程 中 采用 的 各 种 技术 ， 其 中 最 后 一 











列 给 出 了 各 技术 的 相对 性 价 比 ， 即 每 单位 价格 所 能 获得 的 性 能 。 这 些 技术 决定 了 计算 机 的 功 
能 和 性 能 ， 正 因 如 此 ， 我 们 认为 计算 机 专业 人 士 都 应 当 对 集成 电路 的 基础 知识 有 所 了 解 。 




















3 ep 
1951 | 真空 电 了 管 | 1 
1965 | 晶体 管 | 35 
1975 | 集成 电路 900 
1995 | 超大 规模 集成 电路 2 400 000 
2013 | 其 大 规模 集成 电路 250 000 000 000 














图 1-10 计算 机 发 展 过 程 中 采用 的 实现 技术 及 其 性 价 比 。 来 源 : 波士顿 计算 机 博 
物 馆 ， 其 中 2013 年 的 数据 由 作者 推断 得 到 ( 见 1.12 节 ) 


晶体 管 (transistor) 是 一 种 受 电流 控制 的 开关 。 集 成 电路 (IC) 

是 由 几 十 到 几 百 个 晶体 管 组 成 的 单个 芯片 。 摩 尔 定律 提出 时 ， 最 初 预 | 
测 的 是 单 芯片 上 晶体 管 数量 的 增长 速度 。 为 了 描述 晶体 管 数目 从 几 百 
增长 到 成 千 上 万 的 情形 ， 形 容 词 “ 超 大 规模 ”被 添加 到 术语 中 ， 简 写 


晶体 管 : 一 种 由 电信 号 控 
制 通 断 的 开关 。 


超大 规模 集成 电路 ; 由 数 





为 VLSI， 即 超大 规模 集成 电路 (very large-scale integrated circuit) 。 十 万 到 数 百 万 晶体 管 组 成 
集成 电路 集成 度 的 增长 率 是 相当 稳定 的 ， 以 DRAM 为 例 , 图 L-11 “和 

显示 了 自 1977 年 以 来 DRAM 容量 的 增长 趋势 。 过 去 的 几 十 年 中 ， | 本 ，_ 种 自然 元 来 属于 

DRAM 的 容量 每 隔 三 年 翻 两 番 ， 累 积 增长 已 超过 16 000 售 。 | 半导体 。 


下 面 我 们 从 头 开始 介绍 集成 电路 的 制造 过 程 。 芯 片 的 制造 从 原 
材料 硅 ( silicon) 开始 ， 硅 可 以 从 沙子 中 提炼 >。 硅 的 导电 能 力 不 强 ， | 半导体: 导电 性 不 好 的 材料， 
属于 半导体 ( semiconductor) 材料 。 通 过 化 学 处 理 在 硅 中 添加 其 他 | 介 于 导体 与 络 缘 体 之 问 。 


日 ”沙子 的 成 分 是 二 氧化 硅 。 一 一 详 者 注 
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成 分 ， 可 以 获得 以 下 三 种 合成 材料 : 
。 良好 的 导电 体 (类 似 于 细微 的 铜 线 或 铝 线 )。 
。 良好 的 绝缘 体 (类 似 于 塑料 膜 或 玻璃 )。 
。 不 同 条 件 下 可 变 成 导电 体 或 绝缘 体 (类 似 开关 )。 








W876 1978 1000 1982 1904 1086 1988 1900 1002 1094 1998 1058 2000 2002 2004 2008 2008 2010 2012 
上 架 年 份 
图 1-11 单 片 DRAM 容量 增长 趋势 。y 轴 单 位 为 Kib (2" 比特 )。 在 近 20 
多 年 中 ，DRAM 容量 平均 每 三 年 翻 两 番 ， 即 每 年 增长 约 60%; 但 
近 几 年 增长 速度 有 所 下 降 ， 接 近 每 两 三 年 翻 一 番 的 水 平 


晶体 管 属于 第 三 类 。VLSI 电 路 就 是 由 数 亿 个 上 述 三 种 材料 ( 即 导 体 、 绝 缘 体 、 开 关 ) 组 


合 起 来 并 封装 在 一 起 所 制 成 的 。 

集成 电路 的 制造 过 程 对 芯片 的 价格 非常 关键 ， 因 此 对 计算 机 设 
计 者 而 言 也 是 十 分 重要 的 。 图 1-12 展示 了 集成 电路 从 硅 锭 (silicon 
crystal ingot) 开始 的 整个 制造 过 程 。 目 前 ， 硅 锭 (看 上 去 像 一 根 巨 
大 的 香肠 ) 的 直径 可 达 8 一 12 英寸 ,长度 约 12 ~ 24 英寸 。 硅 锭 再 
被 精细 地 切割 成 厚度 不 超过 0.1 英寸 的 晶 圆 ( wafer)。 经 过 一 系列 化 
学 处 理 后 ， 晶 圆 上 会 产生 之 前 所 讨论 的 晶体 管 、 导 体 和 绝缘 体 。 目 
前 ， 集 成 电路 只 包含 一 层 晶体 管 ， 但 是 可 能 有 2 ~ 8 个 金属 导电 层 ， 
由 多 个 绝缘 层 隔 开 。 

晶 圆 本 身 或 是 几 十 个 加 工 步骤 中 ， 若 出 现 一 个 细微 的 瑕 症 就 可 能 
使 其 附近 的 晶 圆 损坏 。 环 症 ( defect) 的 存在 ， 使 得 制 成 一 个 完美 的 晶 
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圆 几 乎 是 不 可 能 的 。 对 付 不 完美 最 简单 的 方法 ， 是 把 很 多 彼此 独立 的 
芯片 放 在 一 个 晶 圆 上 ， 然 后 将 图 样 化 的 晶 圆 切割 开 得 到 管 芯 (dic)， 更 
非 正式 的 叫 法 是 获 片 (chip)。 图 1-13 是 一 个 切割 前 的 晶 圆 ， 上 面 是 一 
个 个 微 处 理 器 ， 而 图 1-9 则 对 应 了 其 中 的 单个 微 处 理 器 芯片 ( 管 芯 )。 
通过 切 分 ， 可 以 只 淘汰 那些 有 瑕 疯 的 芯片 ， 而 不 必 淘汰 整个 晶 圆 ， 
毕竟 一 个 芯片 出 现 瑕 症 的 概率 要 低 得 多 。 我 们 用 过 程 良 率 即 成 品 率 
(yield) 来 进行 量化 ， 其 定义 为 晶 贺 上 合格 管 芯 数 占 总 管 芯 数 的 百分比 。 


硅 锭 ; 直径 约 8 一 12 英寸， 
长 度 约 12 一 24 英寸 的 硅 
晶体 棒 。 





晶 圆 : 厚度 不 超过 0.1 英寸 
的 硅 锭 片 ， 用 于 制造 芯片 。 


更 症 : 品 加 本 身 具有 的 或 者 
在 生产 过 程 中 产生 的 微小 
缺陷 ， 可 能 导致 汞 片 失效 。 





管 芯 : 从 蝇 贺 中 切割 出 来 
的 单个 短 形 部 分 ， 更 为 非 
正式 的 名 称 是 芯片 。 





成 品 率 : 唱 加 上 合格 管 芯 
数 占 总 管 芯 数 的 百分比 。 


当 管 芯 尺寸 增 大 时 ,集成 电路 的 成 本 也 会 快速 增加 。 因 为 芯片 尺寸 变 大 后 ,成 品 率 和 
晶 圆 中 能 容纳 的 管 世 数 都 会 下 降 。 为 了 降低 成 本 ， 经 常 使 用 下 一 代 工艺 (晶体 管 和 导线 的 尺 
寸 更 小 ) 压缩 大 芯片 的 尺寸 ， 从 而 提高 晶 圆 的 成 品 率 和 管 芯 数 。2012 年 ， 典 型 工艺 尺寸 为 


32nm， 这 意味 着 芯片 上 的 最 小 特征 尺寸 是 32nm。 
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图 1-12 


图 1-13 






图 样 化 的 最 贺 


i 


芯片 制造 过 程 。 从 硅 锭 切 下 来 的 空白 晶 圆 ， 经 过 大 约 20 一 40 个 加 工 步骤 后 ， 得 到 图 样 化 


的 晶 圆 ”( 见 图 1-13 )。 晶 圆 测 试 仪 对 这 些 图 样 化 的 晶 圆 进行 检测 ， 并 生成 一 张 映射 图 ， 表 
明 晶 圆 上 哪些 部 分 合格 ， 哪 些 部 分 有 问题 。 品 圆 进一步 被 切割 成 管 芯 ” ( 见 图 1-9 )。 本 图 中 
一 个 晶 圆 能 生产 20 个 管 芯 ， 其 中 有 17 个 通过 测试 ( x 表明 这 个 管 芯 是 坏 的 )。 本 例 中 管 
芯 的 良 率 〈 又 称 成 品 率 ) 是 17/20， 也 就 是 85%。 合 格 的 管 芯 被 封装 起 来 并 且 再 次 测试 。 最 
终 封装 后 的 合格 成 品 被 送 到 用 户 手 中 ， 而 不 合格 的 成 品 在 最 终 测试 中 会 被 挑选 出 来 








Intel Core i7 的 12 英寸 (300mm) 品 圆 (Intel 提供 )。 在 这 个 直径 为 300mm、 良 率 为 100% 的 
晶 贺 中， 有 280 个 管 芯 ， 每 个 尺寸 为 20.7mm x 10.5mm。 蝇 图 边缘 几 十 个 不 完整 的 芯片 是 没 
用 的 ,之 所 以 包含 它们 是 为 了 简化 掩 膜 制造 ， 用 于 对 奎 片 进行 光 刻 。 该 芯片 使 用 32nm 工艺 ， 
这 意味 着 最 小 的 特征 尺寸 约 为 32nm， 通 常 比 实际 的 特征 尺寸 ( 即 晶 体 管 尺寸 ) 还 要 小 ， 就 像 
“图 纸 ” 尺 寸 和 最 后 的 产品 尺寸 总 有 差距 一 样 


硅 锭 上 切割 下 来 的 晶 圆 是 没有 任何 掺 杂 ， 也 没有 任何 电路 的 。 生 产 厂家 根据 设计 版 图 制备 掩 膜 版 ， 然 后 
进行 曝光 和 光 刻 ， 得 到 图 样 化 的 晶 圆 。 光 刻 过 程 就 好 像 把 设计 的 版 图 “ 印 制 ” 在 晶 圆 上 ， 故 称 图 样 化 的 唱 
圆 (patterned wafer)。 一 一 译 者 注 

管 芯 指 晶 圆 中 图 样 化 的 一 个 个 方形 晶片 ， 即 裸 片 - 管 芯 从 晶 圆 上 切割 下 来 后 ， 经 过 封装 形成 完整 的 芯片 
芯片 常 作 为 泛称 ， 有 时 指 封装 好 的 芯片 ， 有 时 指 管 芯 ， 读 者 可 根据 上 下 文 进行 区 分 。 一 一 译 者 注 
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合格 的 管 芯 连接 到 芯片 外 这 的 1O 引 脚 上 ， 这 一 过 程 称 为 绑 定 ( bonding)。 由 于 封装 过 
程 也 可 能 出 错 ， 因 此 封装 后 的 芯片 必须 进行 最 后 一 次 测试 ， 合 格 后 才能 交付 给 用 户 。 
罗 锯 | 集成 电路 的 成 本 可 以 用 下 面 三 个 简单 公式 来 表示 : 








2 每 唱 回 的 价格 
每 必 片 的 价格 ~ 每 而 园 的 管 世 款 x 成 吕 率 
ALw 晶 国 面积 
每 而 加 的 管 世 数 = - 管 直下 各 
成 品 率 


(1+ (单位 面积 的 甫 辣 数 X 管 世面 积 /2)) 3 
第 一 个 公式 是 直接 等 价 的 。 第 二 个 公式 获得 的 是 近似 值 ， 因 为 没有 减 去 昌 回 边 上 不 满 
足 管 蕊 乱 形 要 求 的 面积 ( 见 图 1-13 )。 第 三 个 公式 是 基于 集成 电路 工厂 的 成 品 率 经 验 得 到 的 ， 


与 生产 步骤 的 数量 呈 指 数 关系 。 
因此 ， 管 芯 的 成 本 取决 于 成 品 率 以 及 管 芯 和 蝇 图 的 尺寸 ， 与 管 芯 面积 之 间 不 是 简单 的 线 
性 关系 。 








1.6 性 能 

对 计算 机 的 性 能 进行 评价 是 一 项 富有 挑战 性 的 工作 。 由 于 现代 软件 系统 的 规模 及 其 复杂 
度 ， 以 及 硬件 设计 者 采用 了 大 量 先进 方法 来 改进 性 能 ， 因 此 性 能 评价 变 得 更 为 困难 。 

在 不 同 的 计算 机 中 挑选 合适 的 产品 时 ， 人 性 能 是 重要 的 因素 之 一 。 对 不 同 的 计算 机 进行 精 
确 地 测量 和 比较 ， 对 于 购买 者 和 设计 者 都 很 重要 。 计 算 机 的 销售 人 员 也 需要 知道 这 些 ， 因 为 
销售 人 员 总 是 希望 用 户 看 到 所 推销 产品 最 好 的 一 面 ， 无 论 这 一 面 是 否 能 准确 地 反映 购买 者 的 
需求 。 因 此 ， 理 解 怎样 才能 最 好 地 测量 性 能 以 及 这 些 测量 的 局 限 性 ， 对 于 选择 一 台 计 算 机 是 
非常 重要 的 。 

本 节 首 先 介 绍 性 能 评价 的 不 同方 法 ， 然 后 分 别 从 计算 机 用 户 和 设计 者 的 角度 描述 性 能 
测量 的 度量 标准 ， 最 后 分 析 这 些 度量 标准 之 间 的 内 在 关联 ， 并 提出 经 典 的 处 理 器 性 能 方程 式 
(全 书 中 都 将 使 用 该 方程 式 进行 性 能 评价 )。 


1.6.1 性 能 的 定义 


当 我 们 说 一 台 计 算 机 的 性 能 优 于 另 一 台 计 算 机 时 ， 究 竟 意 味 着 什么 ?这 个 问题 看 似 简 
单 ， 实 则 不 然 。 我 们 可 以 先 用 客机 问题 类 比 一 下 。 图 1-14 列举 了 若干 典型 客机 的 巡航 速度 、 
续航 里 程 、 载 客 量 。 如 果 我 们 要 评价 哪 架 客机 的 性 能 最 好 ,那么 首先 要 对 性 能 进行 定义 。 性 
能 指标 不 同 ， 评 价 结果 就 不 同 。 例 如 ， 巡 航速 度 最 高 的 是 Concorde ( 2003 年 退役 )， 续 航 里 
程 最 远 的 是 DC-8-50， 而 载 客 量 最 大 的 是 波音 747。 
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波音 777 375 228 750 
波音 747 470 286 700 
BAC/Sud Concorde 132 178 200 
Douglas DC-8-50 146 79 424 





图 1-14 若干 客机 的 载 客 量 、 续 航 里 程 和 巡航 速度 。 最 后 一 列 是 飞机 运载 乘客 的 速率 ， 
即 载 客流 量 ， 等 于 载 客 量 乘 以 巡航 速度 (忽略 距离 、 起 飞 和 降落 时 间 ) 


即使 用 速度 来 衡量 性 能 ， 这 里 仍然 有 两 种 可 能 的 定义 。 如 果 要 求 将 单个 乘客 从 一 个 地 方 
送 到 另 一 个 地 方 的 时 间 最 短 ， 那 么 具有 最 高 巡航 速度 的 飞机 就 是 最 “ 快 ”的 飞机 。 如 果 你 关 
心 的 是 将 450 名 乘客 从 一 个 地 方 运送 到 另 一 地 方 的 最 短 时 间 ， 那 么 波音 747 是 最 “ 快 ”的 
(如 图 中 最 后 一 列 所 示 )。 与 此 类 似 ， 定 义 计算 机 的 性 能 也 有 不 同 的 方法 。 

如 果 在 两 台 不 同 的 桌面 计算 机 上 运行 同一 个 程序 ， 那 么 首先 完 人 
成 作业 的 那 台 计算 机 显然 更 快 。 但 如 果 运 行 的 是 一 个 数据 中 心 ( 有 | 生生 和 各 人 
多 台 服 务 器 同时 运行 多 个 用 户 提交 的 作业 )， 那 你 也 许 会 说 在 一 天 之 “| 需 的 总 时 间 ， 包 括 碰 盘 访 
内 完成 作业 最 多 的 那 台 计算 机 更 快 。 因 此 ， 个 人 计算 机 用 户 希望 降 | 问 、 内 存 访问 、UO 操作 、 
低 响 应 时 间 (response time) 一 一 一 个 任务 从 开始 执行 到 完成 的 总 时 ey 
间 一 一 又 称 为 执行 时 间 ( execution time)。 而 数据 中 心 的 管理 员 感 兴 3 
趣 的 是 增加 吞吐 率 ( throughput) 和 带宽 ( bandwidth)， 即 单位 时 间 吞吐 率 : 也 叫 带 党 ， 一 种 
内 完成 的 工作 量 。 因 此 ， 在 评测 性 能 时 ， 对 于 关注 响应 时 间 的 个 人 | 变量 性 能 的 参 教 ， 间 未 间 
移动 设备 (以 及 桌面 电脑 ) 和 关注 吞吐 率 的 服务 器 ， 需 要 使 用 不 同 的 。 | 位 时 间 内 完成 的 任务 量 。 
性 能 指标 和 基准 测试 程序 。 


| 例题 | 吞吐 率 和 响应 时 间 = 

下 面 哪 种 改进 能 够 增加 吞吐 率 或 减少 响应 时 间 ? 

1. 将 计算 机 中 的 处 理 器 更 换 为 更 高 速 的 型 号 。 

2. 增加 多 个 处 理 器 分 别处 理 独立 的 任务 ， 如 搜索 万 维 网 。 
| 答案 | 减少 响应 时 间 一 般 都 可 以 增加 吞吐 率 。 因 此 ， 方 式 1 同时 改进 了 响应 时 间 和 吞吐 率 。 
方式 2 不 能 使 单个 任务 完成 得 更 快 ， 只 能 增加 吞吐 率 。 

方式 2 中 ， 当 需要 处 理 的 任务 量 达 到 吞吐 率 上 限时 ， 系 统 会 要 求 请 求 的 任务 排队 等 待 。 
在 这 种 情况 下 ， 提 高 乔 吐 率 可 同时 减少 响应 时 间 ， 因 为 吞吐 率 的 增加 使 得 排队 等 待 时 间 缩 
短 ， 那么 单个 任务 的 响应 时 间 也 相应 减少 了 。 因 此 ， 在 实际 的 计算 机 系统 中 ， 响 应 时 间 和 吞 
吐 率 往往 是 相互 影响 的 。 = 


在 讨论 计算 机 性 能 时 ， 本 书 前 几 章 主要 考虑 响应 时 间 。 为 了 使 性 能 最 大 化 ， 我 们 希望 任 
务 的 响应 时 间或 执行 时 间 最 小 。 对 于 某 个 计算 机 X， 响 应 时 间 和 执行 时 间 可 以 表达 为 ; 
人 
性 能 x 一 诛 行 时 间 x 


如 果 有 两 台 计 算 机 X 和 Y, X 比 Y 性 能 更 好 ， 则 
性 能 x> 性 能 Y 











ee 
执行 时 间 x ”执行 时 间 Y 
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执行 时 间 *> 执行 时 间 x 
也 就 是 说 ， 如 果 XX 比 了 快 ， 那么 Y 的 执行 时 间 比 六 长 。 





在 讨论 计算 机 设计 时 ， 经 常 要 定量 地 比较 计算 机 的 性 能 ， 通 常 说 “X 的 速度 是 了 的" 
信 ” 或 “X 是 Y 的 4 倍 快 "， 即 
性 能 x 
性 能 y 
如 果 X 比 Y 快 4 倍 , 那么 Y 上 的 执行 时 间 是 X 上 执行 时 间 的 n 倍 ， 即 
性 能 执行 时 间 ， 
性 能 *“ 状 行 时 间 x 


| 例题 | 相对 性 能 . 
如 果 计 算 机 A 运行 一 个 程序 需要 10 秒 ， 而 计算 机 B 运行 同样 的 程序 需要 15 秒 ， 那么 

计算 机 A 比 计算 机 B 快 多 少 ? 

| 答案 | A 比 B 快 a 倍 ， 则 


二 村 





性 能 。_ 执行 时 间 s_， 
性 能 8” 执行 时 间 。 








故 性 能 比 为 
1 
条 = 1.5 
因此 A 的 速度 是 B 的 1.5 倍 。 和 
上 例 中 ,我 们 也 可 以 说 ， 计 算 机 B 比 计算 机 A 慢 1.5 倍 ， 因 为 
性 能 A。_ 1 5 
性 能 8 “ 
意味 着 
性 能 。_ 
1.5 “一 性 能 s 





简单 而 言 ， 当 我 们 试图 对 计算 机 进行 量化 比较 时 ， 通 常 采 用 术语 比 什 么 快 (as far as)。 
因为 性 能 和 执行 时 间 是 倒数 关系 ， 所 以 提高 性 能 就 需要 减少 执行 时 间 。 为 了 避免 使 用 术语 增 
加 和 减少 时 造成 混淆 ， 当 我 们 想 说 “增加 性 能 ”和 “减少 执行 时 间 ” 时 ， 通 常用 “改进 性 能 ” 
或 者 “改进 执行 时 间 ” 来 表示 。 


1.6.2 ”性 能 的 度量 


时 间 常用 来 度量 计算 机 性 能 。 完 成 同样 的 任务 时 ， 所 需 时 间 最 少 的 计算 机 是 最 快 的 。 程 
序 的 执行 时 间 一 般 以 秘 为 单位 。 然 而 ， 当 我 们 采用 的 计量 方式 不 同时 ， 时 间 也 有 不 同 的 定义 
方法 。 对 时 间 最 直接 的 定义 是 培 钟 时 间 (也 叫唤 应 时 间或 消逝 时 间 )。 这 些 术语 均 表 示 完成 
一 项 任务 所 需 的 总 时 间 ， 包 括 磁盘 访问 、 内 存 访问 、UO 操作 和 操作 系统 开销 等 一 切 
时 间 。 

计算 机 经 常 被 多 个 用 户 共享 ， 因 此 一 个 处 理 器 可 能 需要 同时 运 “| cpu 执行 时 间 。 商 站 CPU 
行 几 个 程序 。 在 这 种 情况 下 ， 系 统 可 能 更 侧重 于 优化 整个 系统 的 春 | 时间 ,是 CPU 完 名 半 个 计 
吐 率 ， 而 不 是 最 小 化 一 个 程序 的 响应 时 间 。 因 此 ， 我 们 往往 需要 把 。 | 自任 务 所 花费 的 总 时 间 。 
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任务 执行 时 间 与 CPU 工作 时 间 区 别 开 来 。 我 们 使 用 CPU 执行 时 间 ”| 用 户 CPU 时 间 : 程序 执行 
( CPU execution time) 或 简称 CPU 时 间 ， 表 示 CPU 为 完成 某 任务 花 “| 本 身 所 花费 的 CPU 时 间 。 
费 的 计算 时 间 ， 不 包括 等 待 IO 或 等 待 其 他 程序 运行 的 时 间 。( 需 要 
注意 的 是 ， 用 户 所 感受 到 的 是 程序 的 响应 时 间 ， 而 不 是 CPU 时 间 。) 
CPU 时 间 还 可 进一步 分 为 用 户 程序 执行 所 花费 的 CPU 时 间 和 操作 系 
统 为 用 户 程序 执行 (操作 系统 服务 ) 所 花费 的 CPU 时 间 。 前 者 称 为 
用 户 CPU 时 间 (user CPU time)， 后 者 称 为 系统 CPU 时 间 ( system CPU time)。 两 者 很 难 精 
确 区 分 ， 因 为 通常 难以 分 清 哪些 操作 系统 的 活动 是 属于 哪个 用 户 程序 的 ， 而 且 不 同 操作 系统 
的 功能 也 千差万别 。 

为 了 具有 一 致 性 ， 我 们 保持 基于 响应 时 间 和 基于 CPU 执行 时 间 的 性 能 的 区 别 。 术 
语系 统 性 能 表示 空 载 系统 的 响应 时 间 ?，CPU 性 能 表示 用 户 CPU 时 间 。 本 章 关 于 性 能 的 
描述 ， 既 适用 于 响应 时 间 的 度量 ， 也 适用 于 CPU 时 间 的 度量 ， 但 本 章 主 要 关注 CPU 
性 能 。 

[型 解 种 部 性 甬 ; 不 同 的 应 用 关注 计算 机 系统 性 能 的 不 同方 面 。 许 多 应 用 ， 特 别 是 运行 在 
服务 器 上 的 应 用 ， 主 要 关注 IO 性 能 ， 既 依赖 硬件 又 依赖 软件 ， 因 此 关注 的 是 墙 钟 时 间 。 而 
在 其 他 一 些 应 用 中 ， 用 户 可 能 对 吞吐 率 、 响 应 时 间或 两 者 的 组 合 更 为 关注 (例如 ， 最 差 响 应 
时 间 下 的 最 大 吞吐 率 )。 要 改进 程序 的 性 能 ， 必 须 明确 哪个 性 能 指标 是 关键 的 ， 然 后 对 程序 
执行 进行 测量 ， 寻 找 可 能 的 性 能 瓶颈 。 在 后 面 的 章节 中 ， 我 们 将 介绍 如 何在 系统 的 各 个 部 分 
中 寻找 瓶颈 并 改进 性 能 。 

虽然 作为 计算 机 用 户 ， 我 们 关心 的 是 时 间 ,， 但 当 我 们 深入 研究 计算 机 的 细节 时 ， 使 用 其 
他 性 能 指标 可 能 更 为 方便 。 比 如 ， 计 算 机 设计 者 往往 以 硬件 完成 基本 
功能 的 速度 来 评价 一 台 计 算 机 。 几 乎 所 有 计算 机 都 用 时 钟 来 确定 硬件 
中 发 生 的 各 种 事件 。 这 种 离散 的 时 间 间 隔 称 为 时 钟 周期 数 ( clock 
cycle, tick, clock tick，clock period，clock，cycle)。 时 钟 周期 长 度 
到， 全 如， 时 钙 忆 为 250P。， 对 的 时 估计 为 40Hz, 在 T | 


系统 CPU 时 间 ; 为 执行 
程序 而 花费 在 操作 系统 上 
的 时 间 。 





时 钟 周 期 数 : 由 处 理 器 以 
恒定 连 率 运行 时 的 时 钟 
决定 。 





时 钟 周期 长 度 : 看 个 时 钟 


来 描述 。 例 如 ， 时 钟 周期 为 250ps， 对 应 的 时 钟 频率 为 4GHz。 在 下 | 网关 的 时 间 关 时 


一 节 ， 我 们 将 形式 化 地 定义 硬件 设计 师 使 用 的 时 钟 周期 和 计算 机 使 
用 者 所 指 的 秒 之 间 的 关系 。 








名 ” 空 载 系统 指 没有 运行 用 户 程序 时 的 系统 。 此 时 响应 时 间 主要 是 操作 系统 等 系统 软件 产生 的 开销 - 一 一 译 者 注 
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1.6.3 ”CPU 的 性 能 及 其 度量 因素 


用 户 和 设计 师 经 常 以 不 同 的 指标 来 评价 性 能 。 如 果 我 们 能 掌握 这 些 不 同 指标 之 间 的 关 
系 ， 就 能 确定 设计 中 的 变化 对 性 能 以 及 用 户 体验 的 影响 。 目 前 我 们 关注 CPU 性 能 ， 度 量 的 
底线 是 CPU 执行 时 间 。 下 面 用 一 个 简单 的 公式 把 最 基本 的 几 个 指标 (时 钟 周期 数 和 时 钟 周期 
长 度 ) 和 CPU 时 间 关 联 起 来 : 
程序 的 CPU 执行 时 间 = 程序 的 CPU 时 钟 周期 数 xX 时 钟 周期 长 度 
由 于 时 钟 频 率 和 时 钟 周期 长 度 互 为 倒数 ， 故 : 
程序 的 CPU 时 钟 周期 数 


程序 的 CPU 执行 时 间 = 时 名 频率 


该 公式 清楚 地 表明 ， 硬 件 设计 者 可 以 通过 减少 程序 执行 时 所 需 的 CPU 时 钟 周期 数 ， 或 减少 
时 钟 周期 长 度 来 提高 性 能 。 在 后 面 几 章 中 我 们 将 看 到 ， 设 计 者 经 常 要 在 这 两 者 之 间 进 行 权 
衡 。 许 多 技术 在 减少 时 钟 周期 数 的 同时 也 会 引起 时 钟 周期 长 度 的 增加 。 


| 例题 | 性 能 改进 。 

某 程序 在 时 钟 频率 为 2GHz 的 计算 机 A 上 运行 需要 10 秒 。 现 在 要 设计 一 台 计算 机 B 
希望 将 运行 时 间 缩短 为 6 秒 。 设 计 师 有 办 法 提高 时 钟 频率 ， 但 这 会 影响 CPU 其 余部 分 的 设 
计 ， 使 计算 机 B 运行 该 程序 时 所 需 的 时 钟 周期 数 约 为 计算 机 A 所 需 的 1.2 倍 。 那 么 设计 师 应 











该 将 时 钟 频 率 提高 到 多 少 ? 
| 答案 | 首先 确定 在 计算 机 A 上 运行 该 程序 需要 多 少时 钟 周 期 数 : 
_ CPU 时 钟 周期 数 ^ 
CPU 时 间 。 时 名 频率 人 
10 秒 -CPU 得 二 人 
并 
2x10 秒 
CPU 时 名 周期 数 人 = 10 秒 x2x10" 有 开业 = 20x 10 周期 
计算 机 B 的 CPU 时 间 为 : 
__ 1.2X CPU 时 钟 周期 数 和 
CPU 时 间 57 
_ 1.2x20Xx10? 时 钟 周期 数 
6 黎 一 时 名 频率 
_1.2x20X10? 时 钟 周期 数 
NN 
人 __.4xX10? 二 -40Hz 


因此 ， 要 在 6 秒 内 运行 完 该 程序 ，B 的 时 钟 频率 必须 提高 为 A 的 2 倍 。 





1.6.4 ”指令 的 性 能 
上 述 性 能 公式 没有 考虑 程序 执行 所 需 的 指令 数 。 编 译 器 产生 与 程序 对 应 的 指令 ， 然 后 计 
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算 机 通过 执行 指令 来 运行 程序 ， 因 此 执行 时 间 依 赖 于 程序 中 的 指令 数 。 一 种 考虑 执行 时 间 的 
方法 是 ， 执 行 时 间 等 于 执行 的 指令 数 乘 以 每 条 指令 的 平均 执行 时 间 。 所 以 ， 一 个 程序 需要 的 
时 钟 周期 数 可 写 为 : 
CPU 时 钟 周期 数 = 程序 的 指令 数 x 每 条 指令 的 平均 时 钟 周期 数 

术语 CPI ( Clock cycles Per Instruction ) 表示 执行 每 条 指令 所 需 Cpl; 夺 条 指令 的 时 名 用 
的 平均 时 钟 周期 数 。 不 同 的 指令 需要 的 时 间 可 能 不 同 ， 因 此 CPI 是 | 期 数 ， 表 示 某 个 程序 或 程 
程序 全 部 指令 的 平均 值 。 因 为 一 个 程序 的 指令 数 是 不 变 的 >， 所 以 可 | 序 片段 执行 时 ， 平均 每 条 
以 通过 CPI 来 对 相同 指令 集 的 不 同 实现 方式 进行 比较 。 指令 所 需 的 时 钟 用 期 歼 。 


| 例题 | 性 能 公式 的 使 用 
假设 有 相同 指令 集 的 两 种 不 同 实现 方式 。 计 算 机 A 的 时 钟 周期 为 250ps， 对 某 程序 的 

CPI 为 2.0 ; 计算 机 B 的 时 钟 周期 为 500ps， 对 同样 程序 的 CPI 为 1.2。 对 于 该 程序 ， 哪 台 计 

算 机 执行 得 更 快 ? 快 多 少 ? 

| 答案 | 对 于 相同 的 程序 ， 每 台 计 算 机 执行 的 指令 数 相 同 ， 用 了 表示 。 首 先 ， 计 算 每 台 计 算 

机 的 CPU 时 钟 周期 数 ， 

















CPU 时 钟 周 期 数 A=Tx 2.0 
CPU 时 钟 周期 数 B= 7TX 1.2 
然后 ， 计 算 每 台 计算 机 的 CPU 时 间 : 
CPU 时 间 A= CPU 时 钟 周期 数 AX 时 钟 周期 时 间 =7x2.0X250ps= 500x7ps 
同 理 ， 对 于 B: 
CPU 时 间 8=1X1.2x500ps= 600XxIps 
显然 ， 计 算 机 A 更 快 。 快 多 少 由 执行 时 间 之 比 来 计算 : 
CPU 性 能 ^ 执行 时 间 s _ 600XIps _ 





CPU 性 能 8 执行 时 间 。 500XxIps 
因此 ,计算 机 A 执行 该 程序 是 计算 机 B 的 1.2 倍 快 。 下 








1.6.5 经 典 的 CPU 性 能 公式 


下 面 用 指令 数 ( instruction count)、CPI 和 时 钟 周期 长 度 来 表示 | 指令 数 ， 革 程序 执行 所 需 

基本 性 能 公式 : 的 指令 数量 。 
CPU 时 间 = 指令 数 XCPIX 时 钟 周期 长 度 
由 于 时 钟 频率 和 时 钟 周期 长 度 互 为 倒数 ， 因 此 也 可 以 表示 为 : 
指令 数 x CPI 
时 钟 频率 

这 些 公式 把 性 能 分 解 为 三 个 关键 因素 。 因 此 ， 如 果 我 们 知道 某 些 实现 或 设计 对 这 三 个 参 

数 的 影响 ， 就 可 用 这 些 公式 对 不 同方 案 进 行 评估 。 


| 例题 | 比较 代码 段 = 
一 个 编译 器 设计 者 正 试图 在 两 个 代码 序列 之 间 进行 选择 。 硬 件 设计 者 给 出 了 如 下 数据 : 


日 同一 个 编译 器 编译 。 一 一 译 者 注 





CPU 时 间 = 
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对 于 某 行 高 级 语言 语句 ， 编 译 器 开发 人 员 正在 考虑 需要 如 下 指令 数量 的 两 个 代码 序列 : 


WE 


1 地 1 | 2 


























4 | | 1 
哪个 代码 序列 执行 的 指令 数 更 多 ?哪个 执行 得 更 快 ? 每 个 代码 序列 的 CPI 是 多 少 ? 
| 答案 | 序列 1 共 执行 2+1+2=5 条 指令 。 序 列 2 共 执 行 4+ 1+1=6 条 指令 。 所 以 ， 序列 
1 执行 的 指令 数 更 少 。 
基于 指令 数 和 CPI， 用 CPU 时 钟 周期 数 公 式 计 算出 每 个 代码 序列 的 总 时 钟 周期 数 : 
CPU 时 钟 周期 数 = 之 (CPLXC) 








因此 : 
CPU 时 钟 周期 数 ,=(2x1)+(1x2)+(2x3)=2+2+6=10 个 周期 
CPU 时 钟 周期 数 :=(4x1)+(1x2)+(1x3)=4+2+3=9 个 周期 
虽然 多 执行 了 一 条 指令 ， 但 序列 2 更 快 。 由 于 序列 2 总 时 钟 周期 数 较 少 ， 而 指令 数 较 
多 ， 因 此 具有 较 小 的 CPI。CPI 的 计算 公式 为 : 


Sin CPU 时 钟 周 期 数 
指令 数 
CPU 时 钟 周期 数 ， 10 
CP= 一 一 一 一 = 一 2.0 
指令 数 ， 5 
cpl CPU 时 名 周期 数 9 _ | 。 
指令 数 : 6 





岂 四 1-15 给 出 了 计算 机 在 不 同 层次 上 的 性 能 测试 指标 。 通 过 这 些 指标 的 组 合 可 以 
计算 出 程序 的 执行 时 间 《单位 为 秘 ): 
， ”执行 的 秒 数 。 ”指令 数 。 时钟 周 期 数 。 秒 9 
并 =、 汪 序 “闪失 
要 注意 的 是 ， 时 间 是 唯一 能 够 被 完全 可 千 测 量 的 计算 机 性 能 指标 。 例 如 。 改 动 指令 集 减 
少 指令 数目 可 能 会 减少 时 钟 周期 长 度 或 增加 CPI， 从 而 抵消 了 改进 的 效果 。 类 似 地 ，CPI 与 
执行 的 指令 类 型 相关 ， 执 行 指令 数 最 少 的 代码 未 必 是 执行 景 快 的 。 


程序 的 CPU 执行 时 间 程序 的 执行 时 间 ， 以 秒 为 单位 





























指令 数目 程序 执行 的 指令 数目 
指令 的 平均 执行 时 钟 周期 数 ( CP1 ) 每 条 指令 的 平均 时 钟 周 期 数 
时 钟 周期 时 间 每 个 时 钟 周期 的 长 度 ， 以 秒 为 单位 





图 1-15 性 能 的 基本 要 素 及 其 测量 单位 


名 即 ， 执 行 时 间 = 程序 执行 的 秒 数 = 程序 的 指令 数 x 平均 每 条 指令 的 时 钟 周期 数 x 每 时 钟 周 期 的 秒 数 。 一 一 


译 者 注 
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如 何 确定 性 能 公式 中 这 些 因素 的 值 呢 ? 我们 可 以 通过 运行 程序 来 测量 CPU 的 执行 时 间 ， 
而 时 钟 周期 通常 是 一 台 计算 机 的 固有 属性 ， 在 计算 机 的 说 明 书 中 都 会 明确 说 明 。 难 以 测量 的 
是 指令 数 和 CPI。 当 然 ， 如 果 确 定 了 时 钟 频率 和 CPU 执行 时 间 ， 我 们 只 需要 知道 指令 数 或 者 
CPI 两 者 之 一 ， 就 可 以 依据 性 能 公式 计算 出 另 一 个 。 

通过 用 体系 结构 仿真 器 等 软件 工具 分 析 程 序 的 执行 可 以 测量 出 指令 数 。 此 外 ， 也 可 以 通 
过 很 多 处 理 器 中 自 带 的 硬件 计数 器 来 测量 执行 的 指令 数 、 平 均 CPI 和 性 能 损失 源 等 。 由 于 指 
令 数 取决 于 体系 结构 而 非 具体 实现 ， 因 而 对 指令 数 进行 测量 并 不 需要 知道 计算 机 实现 的 全 部 
细节 。 但 是 ，CPI 与 计算 机 的 各 种 设计 细节 密切 相关 ， 包 括 存储 系统 和 处 理 器 结构 ( 见 第 4、 
5 章 )， 以 及 应 用 程序 中 不 同类 型 指令 所 占 的 比例 。 因 此 ， 不 同 的 应 用 程序 有 不 同 的 CPI， 就 
像 相 同 指令 集 有 不 同 的 实现 方式 一 样 。 

上 述 例子 表明 ， 只 用 一 种 因素 (如 指令 数 ) 去 评价 性 能 是 不 合 “| 指令 混合 比 ; 在 一 个 或 多 
理 的 。 在 比较 两 台 计 算 机 时 ， 形 成 执行 时 间 的 三 个 因素 都 应 当 考 虑 。 | 个 程序 中 ， 指 令 的 动态 使 
如 果 某 个 因素 相同 (如 上 例 中 的 时 钟 频率 )， 则 性 能 由 其 他 不 同 的 因 “| 月 频率 的 测量 ，” 

素 决 定 。 因 为 CPI 随 着 指令 混合 比 (instruction mix) 而 变化 ， 所 以 

即使 时 钟 频率 相同 ， 指 令 数 和 CPI 都 需要 进行 比较 。 在 本 章 最 后 的 练习 题 中 ， 有 几 道 题 要 求 
你 改进 计算 机 和 编译 器 后 再 对 时 钟 频 率 、CPI 和 指令 数目 的 影响 进行 评价 。 在 1.10 节 ， 我 们 
将 讨论 一 种 常见 的 性 能 评价 方式 ， 这 种 方式 因 没有 全 面 考虑 各 种 因素 而 产生 了 误导 。 

型 崩 各 琵 克 讼 ;程序 的 性 能 与 算法 、 编 程 语言 、 编 译 器 、 体 系 结构 以 及 实际 的 硬件 有 
关 ， 下 表 概 述 了 它们 对 CPU 性 能 公式 中 的 各 种 因素 的 影响 。 








如 何 影 只 
算法 决定 源 程 序 中 指令 的 数目 ， 从 而 也 决定 了 CPU 执行 的 指令 数 。 
算法 指令 数 ， 可 能 的 CPI 算法 也 可 能 通过 使 用 较 快 或 较 慢 的 指令 影响 CPl|。 例 如 ， 当 算法 使 
用 很 多 除法 时 ，CPI 将 增 大 
编程 语言 显然 会 影响 指令 数 ， 因 为 编程 语言 中 的 语句 必须 翻译 
为 指令 ， 从 而 决定 了 指令 数 。 编 程 语言 也 可 影响 CPI， 例 如 ， 一 种 














弟 且 流 交 | 高 级 语言 ( 如 Java ) 如 果 支 持 高 度 的 数据 抽象 ， 就 需要 进行 间接 调 
| 证 移 用 ， 因 而 需要 较 高 CP| 的 指令 

夯 为 编译 器 决定 了 源 程序 到 计算 机 指令 的 而 译 过 程 ， 所 以 编译 

编译 器 指令 数 ，CPl 器 的 效率 既 影 响 指令 数 又 影响 CP|。 编 译 器 的 作用 十 分 复杂 ， 会 以 


多 种 方式 影响 CPI 


指令 集体 系 结构 影响 完成 某 功 能 所 需 的 指令 数 、 每 条 指令 的 周 
期 数 以 及 处 理 器 的 时 钟 频率 ， 因 此 对 CPU 性 能 的 三 个 因素 都 有 影响 








指令 集体 系 结构 | 指令 数 ，CPI 时 钟 频率 ，CPI 











网 也 你 可 能 认为 CPI 的 最 小 值 为 1.0， 在 第 4 章 我 们 将 看 到 ， 有 些 处 理 器 在 每 个 时 钟 周 
期 是 可 以 对 多 条 指令 取 指 并 执行 的 >。 为 了 反映 这 一 点 ， 有 些 设计 者 反 过 来 用 IPC ( Instruction 
Per Clock cycle) 来 代替 CPI。 如 一 个 处 理 器 每 时 钟 周期 可 平均 执行 两 条 指令 ， 则 IPC = 2， 
CPI= 0.5。 

陋 钥 8 虽然 时 钟 周期 长 度 传统 上 是 固定 的 ， 但 是 为 了 节省 功 耗 或 临时 提升 性 能 ， 当 今 的 处 
理 器 可 以 调整 时 钟 频率 。 因 此 我 们 需要 使 用 平均 时 钟 频率 。 例 如 ，Intel Core i7 处 理 器 在 处 理 
器 温度 升 高 之 前 可 以 临时 将 时 钟 频率 提高 10%。Intel 称 之 为 涡轮 增 压 模式 (Turbo mode)。 





名 即 一 个 程序 中 各 类 指令 所 占 的 比例 - 
昌 因此 CPI 可 能 小 于 1。 一 一 译 者 注 
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1.7 功 耗 墙 

图 1-16 显示 了 过 去 30 年 间 Intel 八代 微 处 理 器 的 时 钟 频率 和 功 耗 的 增长 趋势 。 两 者 密 
切 相 关 ， 因 而 增长 趋势 接近 。 两 者 快速 增长 了 几 十 年 ， 但 近 几 年 平缓 下 来 ， 因 为 目前 技术 已 
经 走 到 了 实际 功 耗 的 极限 ， 无 法 以 更 低 的 功 耗 冷却 商用 微 处 理 器 。 


10,000 


1000 


时 钟 频率 { MHz ) 
功 耗 (W) 





目 § Bg sf i lel leds 
i l ia ll 
图 1-16 近 30 年 来 Intel x86 八代 微 处 理 器 的 时 钟 频率 和 功 耗 。Pentium 4 处 理 器 的 时 钟 频率 和 功 耗 提高 


很 大 ， 但 性 能 提升 不 大 。Prescott 发 热 问题 导致 Pentium 4 的 生产 线 被 放弃 。Core 2 生产 线 恢 复 
使 用 低 时 钟 频率 的 简单 流水 线 ， 并 采用 片上 多 处 理 器 技术 。Core i5 采用 与 Core 2 同样 的 流水 线 


功 耗 决定 了 能 够 冷却 的 极限 ， 但 在 后 PC 时 代 ， 能 量 才 是 真正 有 价值 的 资源 。 对 于 个 人 
移动 设备 来 说 ， 电 池 寿 命 比 性 能 更 重要 。 对 于 具有 100 000 个 服务 器 的 仓储 式 计算 机 来 说 ， 
设计 者 要 尽量 降低 供电 和 冷却 的 开销 (在 这 个 规模 上 开销 昂贵 )。 就 像 在 评价 性 能 时 ， 使 用 
执行 时 间 比 使 用 MIPS ( 见 1.10 节 ) 之 类 的 比率 更 加 可 信人 一样， 在 评价 功 耗 时 ， 使 用 能 耗 ( 焦 
耳 ) 比 使 用 功率 (如 瓦特 或 焦耳 / 秒 ) 更 加 合理 。 

目前 ， 占 统治 地 位 的 集成 电路 技术 是 CMOS (Complementary Metal Oxide Semiconductor， 
互补 型 金属 氧化 半导体 )， 其 主要 的 能 耗 来 源 是 动态 能 耗 ， 即 在 晶体 管 开关 过 程 中 (状态 从 0 
翻转 到 1 或 从 1 翻转 到 0 ) 消耗 的 能 量 。 动 态 能 耗 取决 于 每 个 晶体 管 的 负载 电容 和 工作 电压 : 

能 耗 < 负 载 电 容 X 电压 ? 
这 个 等 式 表示 的 是 一 个 0 一 1 一 0 或 1 一 0 一 1 的 逻辑 转换 过 程 中 消耗 的 能 量 。 则 单个 翻转 
消耗 的 能 量 为 : 
能 耗 < 1/2X 负载 电容 X 电压? 
每 个 晶体 管 需要 的 功 耗 是 一 个 翻转 需要 的 能 耗 和 翻转 (开关 ) 频率 的 乘积 : 
功 耗 x 1/2X 负载 电容 x 电压 ?x 开关 频率 
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开关 频率 是 时 钟 频率 的 函数 。 晶 体 管 的 负载 电容 是 连接 到 输出 上 的 晶体 管 数量 ( 称 为 扇 出 ) 
和 工艺 的 函数 ， 该 函数 决定 了 导线 和 晶体 管 的 电容 。 

图 1-16 中 ， 为 什么 时 钟 频率 增长 为 1000 倍 ， 而 功 耗 只 增长 了 30 倍 呢 ? 每 次 工艺 更 新 换代 
时 都 会 通过 降低 工作 电压 减少 能 耗 和 功 耗 ， 因 为 功 耗 是 电压 平方 的 函数 。 一 般 来 说 ， 每 代 新 技术 
的 电压 降低 了 大 约 15%。 20 多 年 来 ， 电 压 从 5V 降 到 了 1V。 这 就 是 功 耗 只 增长 30 倍 的 原因 所 在 。 


| 例题 | 相对 功 耗 8 

假设 我 们 需要 开发 一 种 新 处 理 器 ， 其 负载 电容 只 有 旧 处 理 器 的 85%。 并 且 电 压 可 以 调节 ， 
与 旧 处 理 器 相 比 电压 可 降低 15%， 进 而 导致 频率 也 降低 了 15%。 新 处 理 器 的 动态 功 耗 有 何 影响 ? 
| 答案 | 























功 耗 《电容 负载 x0.85 ) x (电压 Xx0.85) "x (开关 频率 x0.85 ) 








功 耗 电容 负载 x 电压 ?x 开关 频率 
功 耗 比 为 
0.854= 0.52 
故 新 处 理 器 的 功 耗 大 约 为 旧 处 理 器 的 一 半 。 = 


目前 的 问题 是 如 果 电 压 继续 下 降 会 使 晶体 管 泄漏 电流 过 大 ， 就 像 水 龙头 不 能 被 完全 关闭 
一 样 。 目 前 服务 器 芯片 中 40% 的 功 耗 是 由 于 泄漏 造成 的 。 如 果品 体 管 的 泄漏 电流 再 大 ， 束 
个 过 程 就 会 变 得 难以 处 理 。 

为 了 解决 功 耗 问题 ， 设 计 者 采用 大 型 冷却 设备 以 增强 冷却 效果 ， 并 关闭 芯片 中 一 些 存 给 定时 
钟 周 期 内 暂时 不 用 的 部 分 以 节省 功 耗 。 尽 管 有 很 多 更 加 昂贵 的 方式 来 冷却 芯片 ， 但 继续 提高 芯片 
的 功 耗 (比如 300W) 对 个 人 计算 机 甚至 服务 器 来 说 成 本 太 高 了 ， 对 个 人 移动 设备 就 更 不 用 说 了 。 

功 耗 墙 问题 的 存在 ,使 设计 师 不 能 再 采用 过 去 30 年 微 处 理 器 设计 中 使 用 的 方法 ， 而 需 
要 开辟 新 的 路 径 ， 继 续 推进 计算 机 的 发 展 。 

于 包 虽然 动态 能 耗 是 CMOS 能 耗 的 主要 来 源 ， 但 静态 能 耗 也 是 存在 的 ， 因 为 即使 在 
晶体 管 关闭 的 情况 下 ， 还 是 有 泄漏 电流 存在 。 在 服务 器 中 ， 电 流 泄 漏 通常 占 40% 的 能 耗 。 
因此 ， 增 加 晶体 管 的 数目 就 会 增加 功 耗 ， 即 使 这 些 晶体 管 一 直 处 于 关闭 状态 。 尽 管 人 们 采用 
各 种 设计 技术 和 工艺 创新 来 控制 电流 泄漏 ， 但 还 是 难以 进一步 降低 电压 。 

陋 乌 ;8 功 耗 成 为 集成 电路 设计 的 挑战 有 两 个 原因 。 首 先 ， 电 源 必须 由 外 部 输入 并 且 分 布 
到 芯片 的 各 个 角落 。 现 代 微 处 理 器 通常 有 几 百 个 管 脚 作为 电源 和 地 。 同 样 ， 芯 片 有 多 个 互联 
的 层级 也 仅仅 是 为 了 解决 芯片 的 电源 和 地 的 分 布 问题 >。 其 次 ， 功 耗 
以 热量 形式 散发 ， 因 此 必须 进行 散热 处 理 。 服 务 器 芯片 的 热量 可 达 | 迁 今 为止, 很 多 软件 就 像 
100W 以 上 ， 因 此 冷却 芯片 及 其 外 转 系 统 是 仓储 式 计算 机 开销 的 主 | 为 独奏 者 所 写 的 音乐 ; 使 


源 ( 见 用 当代 芯片 ， 我 们 对 于 二 
要 来 源 ( 见 第 6 章 )。 -i ad 


1.8 ”沧海 巨 变 : 从 单 处 理 器 向 多 处 理 器 转变 Ss 
功 耗 的 限制 迫使 微 处 理 器 的 设计 产生 了 巨大 的 变化 。 图 1-17 给 | 区 

出 了 桌面 微 处 理 器 程序 响应 时 间 的 变化 。 从 2002 年 起 ， 每 年 的 增长 “| pa payes, Computing ina 

速率 从 1.5 下 降 到 1.2。 Parallel Universe, 2007 


日 ”芯片 表面 看 起 来 异常 平滑 ,但 事实 上 可 能 包含 几 十 层 复杂 的 电路 。 一 一 译 者 注 
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Intel Xeon 4 cores 3.6 GHz (加 速 到 4.0) 


Intel Core 7 4 cores 3.4 GHz (加 速 到 3.8 GHz) 
Intel Xeon 6 cores, 3.3 GHz (加 速 到 3.6 GHz) 
Intel Xeon 4 cores, 3.3 GHz ( 加 速 到 3.6 GHz) 
Intel Core i7 Extreme 4 cores 3.2 GHz ( 加 速 到 3.5 GHz) 
Intel Core Duo Extreme 2 cores, 3.0 GHz 
Intel Core 2 Extreme 2 cores, 2.9 GHz 
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图 1-17 自 20 世纪 80 年 代 中 期 以 来 处 理 器 性 能 的 增长 趋势 。 本 图 描绘 了 采用 SPECint 基准 测试 集 ( 见 1.10 节 ) 得 到 的 ， 相 对 VAX 11/780 的 性 能 数据 。80 年 代 中 
期 以 前 ， 处 理 器 性 能 的 提升 主要 由 工艺 发 展 推动 ， 平均 每 年 增长 约 25%。 该 阶段 之 后 ， 增 速达 到 52%， 这 归功 于 先进 的 体系 结构 和 组 织 方式 的 应 用 。 从 
80 年 代 中 期 开始 性 能 每 年 大 约 提高 52%， 到 2002 年 时 的 性 能 是 按 年 增长 率 25% 增长 时 性 能 的 7 们 多 。 但 从 2002 年 开始 ， 受 功 耗 、 指 令 级 并 行程 度 和 存 
储 器 访问 延迟 的 限制 ， 单 处 理 器 的 性 能 增长 变 缓 ， 年 增长 率 约 22% 
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自 2006 年 起 ， 所 有 桌面 机 和 服务 器 公司 都 在 单 片 微 处 理 器 中 加 入 了 多 个 处 理 器 ， 以 
求 更 大 的 吞吐 率 ， 而 不 再 继续 追求 降低 单个 处 理 器 上 单个 程序 的 响应 时 间 。 为 了 减少 处 理 
器 (processor) 和 微 处 理 器 ( microprocessor) 两 词 之 间 的 混 消 ， 一 些 公司 将 处 理 器 称 为 “ 核 ” 
(core)， 而 微 处 理 器 通常 称 为 多 核 微 处 理 器 。 因 此 ， 一 个 “四 核 ” 微 处 理 器 是 一 个 包含 了 四 
个 处 理 器 或 者 四 个 核 的 芯片 。 
过 去 ,程序 员 无 需 修改 一 行 代码 ， 仅 依赖 硬件 、 体 系 结构 和 编译 器 的 创新 ， 就 能 实现 性 
能 每 18 个 月 翻 一 番 。 而 今天 ， 程 序 员 要 想 显著 地 改进 响应 时 间 ， 就 必须 重 写 程序 以 充分 利 
用 多 处 理 器 的 财 蒂 优势 。 而 且 ， 随 着 核 的 数目 不 断 增 加 ， 程 序 员 也 必须 不 断 改 进 他 们 的 代 
码 , 才能 在 更 快 的 新 微 处 理 器 上 获得 显著 的 性 能 提升 。 
为 了 强调 软件 和 硬件 系统 如 何 协同 工作 ， 本 书 增加 了 多 个 硬件 / 软件 接口 模块 ， 对 这 一 
重要 接口 的 相关 概念 进行 介绍 ， 下 面 是 本 书 中 的 第 一 个 。 
1 本 R 雪 籽 对 计算 性 能 一 直 十 分 重要 ， 但 并 行 性 往往 是 被 隐藏 起 来 的 。 第 4 
章 将 介绍 占 喷 溅 ， 该 技术 通过 让 指令 重 相 执行 以 使 程序 运行 得 更 快 。 这 是 一 种 指令 级 并 行 
的 优化 方法 ， 抽 取 了 硬件 的 并 行 特 性 。 而 程序 员 和 编译 器 仍 可 以 认为 指令 在 硬件 中 是 串 行 执 
行 的 。 
迫使 程序 员 关 注 硬件 的 并 行 性 并 重 写 程序 以 使 其 并 行 化 ， 曾 经 是 计算 机 体系 结构 领域 的 
“ 烈 酒 "， 以 致 很 多 依赖 这 种 变化 的 公司 都 失败 了 ( 见 6.15 节 )。 从 历史 视角 来 看 ， 整 个 IT 行 
业已 经 将 未 来 赌 在 了 程序 员 最 终 将 成 功 跃 进 到 显 式 并 行 编 程 上 。 
为 什么 程序 员 编 写 显 式 并 行程 序 如 此 困难 呢 ? 第 一 个 原因 是 并 行 编程 以 提高 性 能 为 
目的 ， 这 增加 了 编程 的 难度 。 程 序 不 仅 要 正确 、 能 解决 重要 问题 、 能 为 用 户 或 其 他 程序 
提供 接口 以 供 调用 ， 还 必须 运行 得 足够 快 。 否 则 就 无 所 谓 性 能 ， 编 写 一 个 串 行程 序 就 足 
够 了 。 
第 二 个 原因 是 为 了 发 挥 并 行 硬件 的 优势 ， 程 序 员 必须 划分 应 用 ， 使 每 个 核 上 同时 执行 的 
任务 量 大 致 相同 ， 并 且 要 尽 可 能 减 小 调度 开销 ， 以 免 浪 费 了 并 行 带 来 的 性 能 提升 。 
打 个 比方 ， 现 在 有 一 个 新 闻 故 事 的 撰写 任务 ， 如 果 由 8 名 记者 共同 完成 ， 完 成 速度 能 
和 否 提高 8 倍 呢 ? 为 了 达到 这 一 目标 ， 先 要 对 新 闻 故 事 进行 划分 ， 让 每 个 记者 都 有 事 可 做 。 因 
此 ， 首 先 要 安排 出 子 任务 。 假 如 某 名 记者 要 比 其 他 7 人 花费 更 长 的 时 间 ， 那 么 8 人 合作 的 好 
处 就 缩水 了 。 因 此 ， 平 衡 负 载 ， 即 平衡 任务 分 配 才能 得 到 理想 的 加 速 。 另 一 个 危险 是 ， 记 者 
们 可 能 要 花费 很 长 时 间 互 相交 流 才 能 完成 任务 。 如 果 故 事 的 一 部 分 (例如 结论 ) 必须 等 到 其 
他 部 分 完成 之 后 才能 编写 ， 这 种 情况 下 ， 计 划 就 会 功 亏 一 筑 。 因 此 ， 必 须 尽 量 减 少 通信 和 同 
步 的 开销 。 对 于 上 述 比 喻 和 并 行 编程 而 言 ， 挑 战 包括 : 任务 调度 、 负 载 平衡 、 通 信 以 及 同步 
开销 等 。 当 有 更 多 的 记者 参与 编写 一 个 故事 ， 或 是 有 更 多 的 核 参 与 并 行 编程 时 ， 挑 战 会 变 得 
更 为 严峻 。 
为 了 反映 工业 界 的 这 个 沧海 巨变 ， 本 书后 面 5 章 每 章 都 有 一 节 有 关 并 行 的 内 容 : 
日 2.11 节 : 并 行 与 指令 : 同步 。 通 常 独立 的 并 行 任务 需要 一 次 次 地 协调 ， 以 便 告知 任务 
何 时 完成 。 这 一 章 将 解释 多 核 处 理 器 同步 任务 所 使 用 的 指令 。 

日 3.6 节 : 并 行 与 计算 机 算术 : 子 字 并 行 。 并 行 化 最 简单 的 一 种 形式 是 计算 元 素 并 行 ， 
例如 两 个 向 量 相 乘 。 汶 演 络 律 提供 了 位 宽 更 大 旦 能 同时 处 理 多 个 操作 数 的 算术 单元 ， 
子 字 并 行 正 是 利用 了 这 种 资源 特点 。 

e 4.10 节 : 指令 级 并 行 。 尽 管 并 行 编程 很 困难 ， 但 20 世纪 90 年 代 起 ， 人 们 依然 付出 了 
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3 了 2 务 1 章 





巨大 的 努力 开发 硬件 和 编译 器 的 并 行 性 ， 器 丝线 就 是 初始 技术 之 一 。 这 一 章 描述 了 
这 些 技术 ， 包 括 同时 对 多 条 指令 取 指 和 执行 、 猜 测 决策 结果 、 通 过 甘 测 推断 指令 执 


行 等 。 


。 5.10 节 : 并 行 与 重生 本 本 基 匡 狗 :cache 一 臻 性。 降低 通信 开销 的 一 种 方法 是 让 所 有 
处 理 器 使 用 同一 个 地 址 空间 ， 因 此 任何 处 理 器 都 可 以 读 写 该 空间 的 任何 数据 。 今 天 的 
处 理 器 中 都 采用 cache， 即 在 靠近 处 理 器 的 更 快 的 存储 器 中 保存 内 存 中 数据 的 一 个 临 
时 副本 。 不 难 想象 ， 如 果 多 个 处 理 器 cache 中 的 共享 数据 不 一 致 的 话 ， 并 行 编程 将 更 


为 困难 。 这 一 章 将 介绍 保持 cache 数据 一 致 性 的 相关 机 制 。 


日 5.11 节 : 并 行 与 存储 器 层次 结构 : 廉价 宛 余 磁盘 阵列 。 本 节 介 绍 如 何 使 用 多 个 磁盘 构 
建 系统 ， 以 提供 更 高 的 吞吐 率 。 这 也 是 廉价 元 余 碰 盘 阵 列 ( RAID) 提出 的 初衷。 但 
使 RAID 流行 的 真正 原因 是 它 能 够 通过 采用 一 定数 量 的 宛 余 磁盘 提供 更 高 的 可 靠 性 。 


本 节 将 介绍 不 同 RAID 级 别 的 性 能 、 成 本 和 可 靠 性 。 


除了 这 些 章节 之 外 ， 本 书 第 6 章 专门 介绍 并 行 处 理 。 该 章 详细 叙述 了 并 行 编程 的 挑战 ， 
提出 了 两 种 方法 来 处 理 共享 编 址 通信 和 显 式 消息 传递 ， 介 绍 了 一 种 易于 编程 的 并 行 模型 ， 讨 
论 了 使 用 基准 测试 程序 对 并 行 处 理 器 进行 评测 的 困难 ， 为 多 核 微 处 理 器 引入 了 一 个 新 的 简单 


性 能 模型 ， 并 在 最 后 使 用 该 模型 描述 和 评价 了 四 种 多 核 微 处 理 器 。 


如 上 所 述 ， 第 3 ~ 6 章 使 用 矩阵 向 量 相 乘 的 实例 展示 如 何 利用 不 同 的 并 行 性 提高 性 能 。 
附录 B 介绍 了 一 种 在 桌面 计算 机 中 越 来 越 普及 的 硬件 一 一 图 形 处 理 单元 ( GPU)。GPU 
为 加 速 图 像 处 理 而 发 明 。 得 益 于 高 度 的 睫 革 性，GPU 以 其 优越 性 能 发 展 为 完善 的 编程 平台 。 


附录 B 介绍 了 NVIDIA GPU， 并 重点 介绍 了 其 并 行 编程 环境 。 


1.9 实例 : Intel Core i7 基准 测试 


本 书 的 每 一 章 都 有 “实例 ”一 节 ， 将 书 中 的 概念 与 日 常 使 用 的 
计算 机 联系 起 来 。 这 些 内 容 涵 盖 了 现代 计算 机 中 使 用 的 多 种 技术 。 
下 面 是 本 书 中 的 第 一 个 “实例 ”， 以 Intel Core i7 为 例 ， 说 明 如 何 制 
造 集成 电路 ， 以 及 如 何 测量 性 能 和 功 耗 。 


1.9.1 SPEC CPU 基准 测试 程序 


用 户 每 日 使 用 的 程序 是 用 于 评价 新 型 计算 机 性 能 的 最 佳 选择 。 
工作 负载 ( workload) 由 一 组 程序 集 构成 。 要 评价 两 台 计算 机 系统 ， 
只 需 简单 地 比较 工作 负载 在 两 台 计 算 机 上 的 执行 时 间 。 然 而 大 多 数 
用 户 并 不 这 样 做 ， 他 们 通过 其 他 方法 测量 计算 机 的 性 能 ， 和 希望 这 些 
方法 能 够 反映 计算 机 执行 用 户 工作 负载 的 情况 。 最 常用 的 测量 方法 
是 使 用 一 组 专门 用 于 测量 性 能 的 基准 测试 程序 ( benchmark)。 通 过 
这 些 基 准 测试 程序 形成 负载 ， 用 户 可 以 预测 实际 负载 的 运行 性 能 。 
如 前 所 述 ， 要 鳃 本 砚 卫 浅 于 件 的 执行 ， 必 须 先 准确 地 知道 哪些 是 大 
概率 事件 ， 因 此 基准 测试 程序 在 计算 机 体系 结构 中 扮演 着 非常 重要 
的 角色 。 

SPEC ( System Performance Evaluation Cooperative) 是 由 许多 
计算 机 销售 商 共 同 赞助 并 支持 的 合作 组 织 ， 目 的 是 为 现代 计算 机 系 








我 想 ， 就 像 书 一 样 ,“ 计 
算 机 ”也 是 一 个 全 世界 广 
泛 应 用 的 概念 。 我 不 曾 想 
到 它 会 发 展 得 如 此 迅速 ， 
因为 我 完全 没有 预料 到 在 
一 块 芯片 上 可 以 得 到 如 此 
多 的 部 件 。 晶 体 管 的 进步 
出 手 预 料 ， 其 发 展 比 我 们 
预想 的 要 快 得 多 。 

J Presper Eckert (ENIAC 的 
创建 者 之 一 ) 1991 


工作 负载 : 运行 在 计算 机 
上 的 一 组 程序 ， 可 以 是 一 
组 用 户 实际 运行 的 应 用 程 
序 ， 也 可 以 从 实际 程序 中 
抽取 构建 。 典 型 的 工作 负 
载 必 须 指明 程序 和 相应 的 
频率 。 


基准 测试 程序 : 用 于 比较 
计算 机 性 能 的 程序 。 


计算 机 的 描 窒 与 霸 大 33 





统 建立 基准 测试 程序 集 。1989 年 ，SPEC 建立 了 47 个 主要 面向 处 理 器 性 能 的 基准 程序 ( 称 
为 SPEC89 )， 并 经 历 了 五 代 发 展 。 目 前 最 新 的 是 SPEC CPU 2006， 包 括 12 个 整数 基准 程序 
(CINT 2006 ) 和 17 个 浮 点 基准 程序 ( CFP 2006 )。CINT 2006 来 源 于 C 编译 器 、 棋 类 程序 、 
量子 计算 机 仿真 等 应 用 。CFP 2006 包括 有 限 元 模型 结构 化 网 格 代 码 、 分 子 动力 学 粒子 方法 代 
码 、 稀 玻 线 性 代数 流体 动力 学 代码 等 。 

图 1-18 列举 了 SPEC 整数 基准 程序 及 其 在 Intel Core i7 上 的 执行 时 间 ， 显 示 了 影响 执行 
时 间 的 各 个 因素 ， 即 指令 数 、CPI 和 时 钟 周期 时 间 等 。 注 意 ，CPI 的 最 大 和 最 小 值 相差 达到 
5 售 。 


Ss 


字符 串 处 理解 释 程 序 “| perl 









































块 排序 压缩 bzip2 629 9650 15.4 
GNUC 编 译 器 gee 358 8050 225 
组 合 优化 mcf 41.2 
围棋 ( 人 工 智能 ) 可 527 10490 199 
基因 序列 搜索 hmmer 590 9330 15.8 
国际 象棋 ( 人 工 智能 ) | sjeng 586 12100 20.7 
量子 计算 机 仿真 libquantum 190.0 






713 22130 31.0 



































视频 压缩 h264ave 

离散 事件 仿真 库 omnetpp 0.376 | 290 6250 21.5 
游戏 /寻找 路 径 astar 0.376 | 470 7020 14.9 
XML 解析 xalancbmk 0.376 | 6900 25.1 
几何 平均 一 一 一 一 | 一 一 25.7 





图 1-18 SPECINTC 2006 基准 程序 在 2.66GHz 的 Intel Core i7 920 上 的 运行 结果 。 根 据 CPU 性 
能 公式 ， 执 行 时 间 是 本 表 中 三 个 因素 的 乘积 : 以 十 亿 为 单位 的 指令 数 、 每 条 指令 的 时 
钟 数 ( CPI) 以 及 纳 秒 级 的 时 钟 周期 时 间 。SPE 分 值 ( SPECratio) 仅仅 是 参考 时 间 (由 
SPEC 提供 ) 除 以 所 测量 的 执行 时 间 得 到 的 比值 。SPECINTC 2006 所 列 的 数字 是 SPEC 
分 值 的 几何 平均 值 








出 于 简化 考虑 ，SPEC 使 用 单一 的 数字 来 归纳 12 种 整数 基准 程序 的 测试 结果 。 具 体 方 
法 是 将 被 测 计算 机 的 执行 时 间 标 准 化 ， 即 用 参考 处 理 器 的 执行 时 间 除 以 被 测 计算 机 的 执行 时 
间 ， 结 果 称 为 SPEC 分 值 。SPEC 分 值 越 大 ， 表 示 性 能 越 快 (因为 SPEC 分 值 是 执行 时 间 的 倒 
数 )。CINT 2006 或 CFP 2006 的 综合 测试 结果 以 SPEC 分 值 的 几何 平均 值 为 准 。 

清 馈 使 用 SPEC 分 值 比 较 两 台 计 算 机 时 采用 的 是 几何 平均 信 ， 因 此 无 论 采 用 哪 台 计 算 
机 进行 标准 化 都 可 得 到 同样 的 相对 值 。 如 果 采 用 的 是 算术 平均 值 ， 结 果 会 因 参 考 计算 机 的 不 
同 而 变化 。 

求 儿 何平 均值 的 公式 : 


V2 上] 执行 时 间 比 ; 


I 
其 中 ， 执 行 时 间 比 ,是 nn 个 工作 负载 中 第 i 个 程序 的 执行 时 间 相 对 参考 计算 机 进行 标准 化 的 
结果 ， 并 且 


工 Ice 表示 wxwx…xw 
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1.9.2 ”SPEC 功 耗 基准 测试 程序 


由 于 能 耗 和 功 耗 日 益 重要 ，SPEC 增加 了 一 组 用 于 评估 功 耗 的 基准 测试 程序 ， 用 以 评测 
服务 器 在 不 同 负载 水 平 (以 10% 递增 测试 ) 下 的 功 耗 。 图 1-19 给 出 了 采用 Intel Nehalem 处 
理 器 的 服务 器 的 测试 结果 。 

















平均 功 耗 ( 瓦特 } 





















































Dssj_ops / Dpower = 2490 


图 1-19 SPECpower_ssj 2008 在 服务 器 上 的 运行 结果 。 服 务 器 的 具体 配置 为 双 搬 模 2.6GHz 
Intel Xeon X5650 处 理 器 ，16GB DRAM 内 存 ，100GB SSD 固态 硬盘 





SPECpower 起 始 于 面向 Java 商业 应 用 的 SPEC 基准 程序 (SPECJBB 2005 )， 主 要 测试 处 
理 器 、cache、 主 存 以 及 Java 虚拟 机 、 编 译 器 、 垃 圾 收集 器 以 及 操作 系统 片段 。 性 能 以 吞吐 
率 衡 量 ， 单 位 是 每 秒 完 成 的 商业 操作 次 数 。 出 于 简化 考虑 ，SPEC 采用 单个 的 数字 来 进行 归 
纳 ， 称 为 “overall ssj _ops per watt" (每 瓦 ssj_op 操作 数 )， 其 计算 公式 是 ; 

SSj_opSi 
overall ssj_ops per watt = 一 一 一 
和 power 


式 中 ，ssj_opsi 为 工作 负载 在 每 10% 增 量 处 的 性 能 ，power 是 对 应 的 功 耗 。 


1.10 ” 廖 误 与 陷阱 

本 书 中 每 一 章 都 会 有 “ 廖 误 与 陷阱 ”一 节 ， 解 释 实际 中 经 常 产 | 科学 一 定 开始 于 神话 和 对 
生 的 误解 ， 我 们 称 之 为 次 误 。 讨 论 廖 误 时 ， 我 们 会 列举 反例 。 此 外 ， | 神话 的 批判 
我 们 也 讨论 陷阱 ， 即 那些 容易 犯 的 错误 。 通 常 陷阱 是 指 一 般 原理 只 | 2 
在 有 限 的 上 下 文中 才 是 真 的 8。 这 些 “ 雇 误 与 陷阱 ” 旨 在 帮助 你 在 设 
计 或 使 用 计算 机 时 避免 犯 同样 的 错误 。 价 格 / 性 能 雇 误 和 陷阱 迷惑 了 许多 计算 机 架构 师 ， 包 
括 我 们 在 内 。 本 节 也 不 乏 相 关 的 例子 。 下 面 介绍 本 书 的 第 一 个 陷阱， 它 曾 迷 惑 了 许多 设计 
者 , 但 揭示 了 计算 机 设计 中 的 一 个 重要 关系 。 

陷阱 : 期 望 通过 计算 机 一 个 方面 的 改进 就 能 提高 总 体 性 能 ， 并 且 性 能 提高 与 改进 规模 成 
比例 。 

天 的 伟大 思想 有 时 也 会 导致 令 人 泪 丧 的 结果 ， 困 扰 软 硬件 设计 人 员 。 这 提 

名 即 原理 的 成 立 依赖 于 上 下 文 ， 或 者 说 依赖 于 条 件 ， 上 下 文 / 条 件 不 同 ， 原 理 可 能 不 成 立 。 一 一 译 者 注 
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醒 我们 ， 一 个 事件 需要 的 时 间 ( 占 所 有 事件 所 需 时 间 的 比例 ) 会 影响 “| Amdahi 定律， 表 明灯 种 
性 能 改进 的 机 会 。 改进 可 能 带 来 的 性 能 提 

用 一 个 简单 的 例子 就 可 以 很 好 地 说 明 这 一 点 。 假 设 一 个 程序 在 | 和 
一 台 计算 机 上 运行 需要 100 秒 ， 其 中 80 秒 用 于 乘法 操作 。 那 么 如 果 “| “站 盖 间 让 证 作 ”的 量化 
要 把 该 程序 的 运行 速度 提高 5 倍 ， 乘 法 操作 的 速度 应 该 改进 多 少 ? | 站 本 - 

改进 以 后 的 程序 执行 时 间 可 根据 Amdahl 定律 计算 

Ws i 
改进 后 的 执行 时 间 一 了 下 于 虹 生生 四 罗 未 当政 迁 影 响 的 执 和 时间 

对 于 该 问题 有 : 
改进 后 的 执行 时 间 = -80 禾 
由 于 要 求 快 5 倍 ， 新 的 执行 时 间 应 该 是 20 秒 ， 则 ， 


20 秒 = 中牧 20 稍 





+(100 秒 -80 秒 ) 


0 -80 秒 

n 
可 见 ， 如 果 乘 法 运算 占 总 工作 负载 的 80%， 那 么 无 论 怎 样 改进 乘法 ， 也 无 法 实现 性 能 提高 5 
倍 。 某 种 改进 可 能 带 来 的 性 能 提升 ， 受 限于 被 改进 部 分 被 使 用 的 次 数 。 这 个 概念 也 存在 于 日 
常生 活 中 ， 称 为 收益 递减 定律 。 

当 已 知 某 些 功 能 所 消耗 的 时 间 ? 及 其 潜在 的 加 速 比 时 ， 我 们 就 可 以 使 用 Amdahl 定律 估 
算 整 体 的 性 能 提升 。Amdahl 定律 以 及 CPU 性 能 公式 是 很 方便 的 性 能 评价 工具 ， 读 者 可 以 在 
本 章 练习 中 进一步 体会 。 

Amdahl 定律 同样 可 以 用 于 说 明 并 行 处 理 器 数量 的 实际 限制 83， 第 6 章 中 的 “ 刻 误 与 陷阱 ” 
中 将 详细 讨论 。 

廖 误 : 利用 率 低 的 计算 机 功 耗 低 。 

服务 器 的 工作 负载 是 变化 的 ， 所 以 在 低 利用 率 的 情况 下 功率 很 重要 。 例 如 ，Google 仓 
储 式 计算 机 中 ， 服 务 器 利用 率 大 多 数 时 间 在 10% ~ 50% 之 间 ， 只 有 不 到 1% 的 时 间 达 到 
100%。 即 使 人 们 花费 了 5 年 时 间 来 研究 如 何 很 好 地 运行 SPECpower 基准 测试 程序 ， 但 2012 
年 ， 在 特别 配置 的 计算 机 中 ， 最 好 的 结果 也 只 有 10% 的 工作 负载 能 够 消耗 1/3 的 峰值 功 耗 。 
在 实际 工作 中 的 系统 并 不 是 针对 SPECpower 测试 进行 配置 的 ， 因 此 结果 会 更 为 糟糕 。 

由 于 服务 器 的 工作 负载 差异 大 且 消 耗 了 峰值 功 耗 的 很 大 比例 ，Luiz Barroso 和 Urs Halzle 
[2007 ] 提出 需要 重新 设计 硬件 ,实现 “ 按 能 量 比例 计算 ”。 在 未 来 的 服务 器 中 ,如果 10% 
的 工作 负载 使 用 10% 的 峰值 功 耗 ， 那么 将 减少 数据 中 心 的 电费 和 二 氧化 碳 的 排放 。 

廖 误 : 面向 性 能 的 设计 和 面向 能 效 的 设计 是 不 相关 的 目标 。 

能 耗 是 功 耗 和 时 间 的 乘积 。 通 常情 况 下 ， 对 于 软 硬 件 优化 而 言 ， 即 使 优化 本 身 的 实现 可 








日 ”Amdahl 定律 定义 了 由 于 采用 特殊 的 方法 所 能 获得 的 性 能 加 速 比 的 大 小 。 加 速 比 与 两 个 因素 有 关 : 一 个 是 
计算 机 执行 某 个 任务 的 总 时 间 中 可 被 改进 部 分 的 时 间 所 占 的 百分比 ; 另 一 个 是 改进 部 分 采用 改进 措施 后 比 
没有 采用 改进 措施 前 性 能 提高 的 倍数 - 详 者 注 

加 以 及 总 执行 时 间 。 译 者 注 

各 处 理 器 通过 增加 核 数 可 以 提高 性 能 ,但 核 数 增加 到 一 定 程度 ， 就 无 法 再 提升 性 能 ，Amdahl 定律 可 以 给 出 
理论 证 明 。 译 者 注 
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能 增加 了 一 些 能 耗 ， 但 如 果 这 些 优化 能 够 缩短 系统 运行 时 间 ， 还 是 可 以 在 整体 上 节约 能 量 。 
原因 之 一 是 ， 当 一 个 程序 运行 时 ， 计 算 机 的 其 他 部 分 也 在 消耗 能 量 ， 因 此 ， 即 使 优化 的 部 分 
多 消耗 了 一 些 能 量 ， 运 行 时 间 的 减少 也 可 以 减少 整个 系统 的 能 耗 。 

陷阱 : 用 性 能 公式 的 一 个 子 集 去 度量 性 能 。 

前 面 我 们 已 经 指出 ， 简 单 地 只 用 时 钟 频率 、 指 令 数 或 CPI 之 一 去 预测 性 能 是 不 合理 的 。 
另 一 种 常 犯 的 错误 是 只 用 三 种 因素 中 的 某 两 个 去 比较 性 能 。 虽 然 在 有 些 条 件 下 这 样 做 可 能 是 
正确 的 ， 但 这 种 方法 容易 被 误 用 。 实 际 上 ， 几 乎 所 有 取代 用 时 间 去 度量 性 能 的 方法 都 会 导致 
焉 曲 的 结果 或 错误 的 解释 。 i 

MIPS ( Million Instructions Per Second， 每 秒 百 万 条 指令 ) 是 一 | 基教 的 程序 执行 速度 的 一 
种 取代 时 间 以 度量 性 能 的 方法 。 对 于 一 个 给 定 的 程序 , MIPS 表示 为 : | 种 测量 ， 由 指令 数 除 以 执 

指令 数 行 时 间 与 10 之 积 获得 。 
指令 时 间 X10 

MIPS 是 指令 执行 的 速率 ， 其 所 定义 的 性 能 与 执行 时 间 成 反比 ， 越 快 的 计算 机 ， 其 MIPS 
值 越 高 。 从 表面 看 ，MIPS 容易 理解 ， 计 算 机 越 快 MIPS 值 越 高 ， 符合 人 的 直觉 。 

然而 ,用 MIPS 来 评价 计算 机 存在 三 个 问题 。 首 先 ，MIPS 规定 了 指令 执行 的 速率 ， 但 
没有 考虑 指令 的 能 力 。 我 们 不 能 用 MIPS 比较 指令 集 不 同 的 计算 机 ， 因 为 指令 数 肯定 是 不 
同 的 。 其 次 ， 即 使 在 同一 台 计算 机 上 ， 不 同 的 程序 也 会 有 不 同 的 MIPS， 因 而 一 台 计算 机 的 
MIPS 值 不 是 唯一 的 。 例 如 ， 将 执行 时 间 用 MIPS、CPI、 时 钟 频率 替代 后 可 得 ; 

















MIPS= 





指令 数 _ 时 钟 频率 
MIPS “将令 数 XCPI wo CPlX10 
时 钟 频率 


如 图 1-18 所 显示 ，SPEC 2006 在 Intel Core i7 上 的 CPI 最 大 值 和 最 小 值 相差 5 售 ， 
MIPS 也 是 如 此 。 最 后 ， 也 是 最 重要 的 一 点 ， 如 果 一 个 新 程序 执行 的 指令 数 更 多 ， 但 每 条 指 
令 的 执行 速度 更 快 ， 则 MIPS 的 变化 与 性 能 无 关 。 








1.11 本 章 小 结 


虽然 很 难 准确 预测 未 来 计算 机 的 成 本 与 性 能 将 发 展 到 何 种 水 平 ， | 味 蛙 ……ENIAC 配 备 有 

但 肯定 比 现在 的 计算 机 更 好 。 计 算 机 设计 者 和 程序 员 必 须 理解 更 广 0 

- 本 计算 机 可 能 只 

泛 的 问题 才 能 参与 推动 计算 机 的 发 展 。 天 六 条 不 机 总 大， 直入 
硬件 和 软件 设计 者 都 采用 分 层 的 方法 构建 计算 机 系统 ， 下 层 对 “| 重 15 呈 。 


上 层 隐藏 本 层 的 细节 。 这 种 伟大 的 思想 即 著 获 ， 这 是 理解 当今 计算 “| Palar Mecanics, Mareh 1949 
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机 系统 的 基础 ， 但 这 并 不 意味 着 设计 者 只 要 人 复 得 抽象 原理 就 足够 了 。 硬 件 和 底层 软件 之 间 的 
接口 称 为 指令 集体 系 结构 ， 可 能 是 最 重要 的 抽象 层次 。 虽 然 有 多 种 价格 和 性 能 不 同 的 实现 方 
法 ,但 只 要 保持 指令 集体 系 结构 不 变 ， 就 能 运行 相同 的 软件 。 与 此 同时 产生 的 负面 效应 是 ， 
那些 引起 接口 变化 的 体系 结构 创新 技术 可 能 不 会 被 采用 。。 

使 用 实际 程序 的 执行 时 间作 为 尺度 评测 性 能 是 一 种 可 靠 的 方法 。 该 执行 时 间 与 其 他 一 些 
重要 的 指标 相关 ， 可 用 公式 表示 为 : 

秒 数 _ 指令 数 、 时 钟 周期 数 、 秒 数 。 
程序 ”程序 指令 数 ” ”时钟 周期 

本 书 中 我 们 将 多 次 使 用 这 一 公式 及 其 组 成 因子 。 必 须 明确 的 是 ， 任 何 一 个 独立 的 因子 都 
不 能 确定 性 能 ， 只 有 三 个 因子 的 乘积 ( 即 执行 时 间 ) 才 是 可 靠 的 性 能 度量 标准 。 

浅 址 ;执行 时 间 是 唯一 有 效 且 可 靠 的 性 能 度量 指标 。 人 们 曾经 提出 许多 其 他 度量 方法 
但 都 有 所 欠缺 。 有 些 从 一 开始 就 没有 反映 执行 时 间 ， 还 有 一 些 只 能 在 有 限 条 件 下 有 效 ， 或 是 
必须 有 明确 附加 条 件 。 

硅 是 现代 处 理 器 硬件 技术 的 关键 。 与 理解 集成 电路 技术 同样 重要 的 是 ， 理 解 预期 的 技术 
变化 速率 ， 如 同志 紧 定律 的 描述 。 在 硅 技术 加 快 硬件 发 展 的 同时 ， 计 算 机 组 织 结构 的 新 技术 
也 提高 了 产品 的 性 价 比 。 其 中 有 两 个 重要 的 新 思想 : 第 一 ， 开 发 程序 的 并 行 性 ， 一 般 通过 多 
处 理 器 实现 ; 第 二 ， 开 发 居 早 本 如 淡 绩 构 的 访问 局 部 性 ， 目 前 的 典型 方法 是 通过 cache。 

能 效 已 经 取代 芯片 面积 ， 成 为 微 处 理 器 设计 中 最 重要 的 资源 。 节 约 功 耗 的 同时 改进 性 能 
的 需求 已 经 迫使 硬件 工业 向 多 核 微 处 理 器 转移 ， 从 而 也 导致 软件 工业 向 并 行 硬件 编程 跃进 。 
溃 行 已 成 为 提高 性 能 的 必要 途径 。 

计算 机 设计 的 好 坏 总 是 以 成 本 和 性 能 来 度量 ， 也 包括 其 他 一 些 重要 的 因素 ， 如 能 耗 、 可 
靠 性 、 购 置 成 本 和 可 扩展 性 等 。 尽 管 本 章 重点 关注 的 是 成 本 、 性 能 和 能 耗 ， 但 最 佳 的 设计 应 
该 根据 面向 的 市 场 或 应 用 领域 ， 在 所 有 因素 之 间 进 行 适当 的 平衡 


本 书 导读 


在 这 些 抽象 层 的 底部 是 计算 机 的 五 个 经 典 部 件 : 数据 通路 、 控 制 器 、 存 储 器 、 输 入 和 输 
出 ( 见 图 1-5 )。 这 五 个 部 件 也 是 本 书后 几 章 的 主要 内 容 : 

。 数据 通路 : 第 3、4、6 章 以 及 附录 B。 
控制 器 : 第 4、6 章 以 及 附录 B。 
存储 器 : 第 5 章 。 
输入 : 第 5 章 和 第 6 章 。 

。 输出 : 第 5 章 和 第 6 章 。 

如 前 所 述 ， 第 4 章 介绍 处 理 器 如 何 开 发 隐 式 并 行 性 ， 第 6 章 介绍 并 行 革命 的 核心 一 一 显 式 
并 行 多 核 微 处 理 器 ， 附 录 B 介绍 高 度 并 行 的 图 形 处 理 器 芯片 。 第 5 章 介绍 层次 存储 结构 如 何 
利用 局 部 性 。 第 2 章 介绍 指令 集 一 一 编译 器 和 计算 机 之 间 的 接口 ， 并 强调 了 编译 器 和 编程 语言 
在 利用 指令 集 特性 方面 的 作用 。 第 3 章 介 绍 计算 机 如 何 处 理 算术 运算 。 附 录 A 介绍 逻辑 设计 。 


1.12 ”历史 观点 与 拓展 阅读 


本 书 的 每 一 章 都 有 “历史 观点 与 拓展 阅读 ”一 节 ， 可 在 本 书 配套 网 站 上 找到 。 我 们 可 以 


名 ”否则 无 法 实现 兼容 性 ， 不 能 运行 相同 的 软件 - 一 一 译 者 注 
加 即 ， 程 序 执行 的 秒 数 = 程序 的 指令 数 x 平均 每 条 指令 的 时 钟 周期 数 x 时 钟 周 期 的 秒 数 。 一 一 译 者 注 
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务 7 章 





通过 一 系列 的 计算 机 来 追溯 某 一 思想 的 发 展 历程 ， 或 者 叙述 一 些 历 | 活路 的 科学 领域 就 像 一 个 
史上 具有 重要 贡献 的 项 目 ， 本 书 还 提供 了 一 些 参考 资料 供 读者 进 一 | 巨大 的 蚂 蚊 窜 : 个 体 消失 


步 探究 。 


在 海量 的 观点 中 ， 这 些 观 
点 相互 交错 ， 以 光速 将 信 


本 章 的 “历史 观点 ”部 分 提供 了 本 章 开头 提 到 的 几 个 关键 思想 “| 息 从 一 个 地 福 传 到 另 一 
的 历史 背景 ， 其 目的 是 向 读者 介绍 技术 进步 背后 的 人 物 故 事 ， 以 及 “| 个 地 方 。 
他 们 的 历史 贡献 。 通 过 了 解 过 去 ， 你 可 以 更 好 地 理解 那些 推动 未 来 “| “Tow The Livesor 
计算 发 展 的 技术 力量 。 配 套 网 站 中 每 个 历史 观点 小 节 之 后 都 会 给 出 





cell 中 的 “自然 科学 "，1974 


进一步 的 阅读 资料 ， 这 些 资料 也 可 以 单独 从 配套 网 站 中 的 “进一步 阅读 ”部 分 获取 。1.12 节 


剩余 部 分 见 网 站 。 


1.13 


练习 题 


完成 练习 题 所 需 的 相对 时 间 标示 在 题 号 之 后 的 方 括号 中 。 平 均 来 说 ,标记 为 【10 ] 的 练习 题 所 需 
要 的 时 间 可 能 是 标记 为 [ 5 ] 的 练习 题 的 2 倍 。 与 题目 相关 的 章节 标示 在 尖 括 号 中 。 例 如 ，< 1.4 > 表示 
你 应 该 在 读 过 1.4 节 后 才能 完成 本 题 。 


1.1 
12 


1.3 


1.4 


1.5 


[2] < 1.1> 列举 和 描述 除 智能 手机 之 外 的 四 种 其 他 类 型 的 计算 机 。 

[5] < 1.2 > 计算 机 体系 结构 中 的 8 个 伟大 思想 与 其 他 领域 的 一 些 思想 有 相似 之 处 。 将 “面向 

摩尔 定律 的 设计 "”“ 使 用 抽象 简化 设计 ”“ 加 速 大 概率 事件 ”“ 采 用 并 行 提高 性 能 "“ 采 用 流水 线 

提高 性 能 " “采用 预测 提高 性 能 " “存储 器 层次 结构 " “通过 宛 余 提 高 可 靠 性 ”这 8 个 伟大 思想 

与 下 列 其 他 领域 的 思想 进行 匹配 : 

a, 汽车 工厂 的 装配 线 。 

b. 吊桥 的 缆 索 。 

c,. 采 用 风 场 信息 的 飞机 和 船舶 导航 系统 。 

d. 高 楼 中 的 快速 电梯 。 

c, 图 书馆 的 非 外 借 区 。 

f. 增 大 CMOS 晶体 管 的 栅 极 面积 以 减少 翻转 时 间 。 

g- 增 加 电磁 飞机 弹射 器 (由 电 驱 动 ， 不 同 于 蒸汽 动力 模型 )， 允 许 通 过 新 型 反应 堆 技术 产生 更 
多 的 能 量 。 

h. 制 造 自动 驾驶 汽车 ， 其 控制 系统 部 分 依赖 于 安装 在 汽车 上 的 传感器 系统 ， 例 如 车 道 偏离 检 
测 系统 和 智能 巡航 控制 系统 。 

[2 ] < 1.3 > 描述 高 级 语言 (例如 C) 编写 的 程序 转化 为 能 够 直接 在 计算 机 处 理 器 上 执行 的 表示 

的 步 又 。 

[2] < 1.4 > 彩色 显示 器 中 的 每 个 像素 由 三 种 基色 ( 红 ， 绿 ， 蓝 ) 构成 ， 每 种 基色 用 8 位 表示 ， 

每 帧 图 像 大 小 为 1280 x 1024 像素 。 

a. 为 了 保存 一 帧 图 像 ， 帧 缓存 至 少 要 多 大 (以 字 节 计算 )? 

b. 在 100Mbps 的 网 络 上 传输 一 帧 图 像 最 少 需 要 多 长 时 间 ? 

[4] <1.6> 三 种 不 同 的 处 理 器 Pl、P2 和 P3 执行 同样 的 指令 集 。P1 的 时 钟 频率 为 3GHz，CPI 

为 1.5; P2 的 时 钟 频率 为 2.5GHz，CPI 为 1.0; P3 的 时 钟 频率 为 4GHz，CPI 为 2.2。 

a. 以 每 秒 钟 执行 的 指令 数目 为 标准 ， 哪 个 处 理 器 性 能 最 高 ? 

b. 如 果 每 个 处 理 器 执行 一 个 程序 都 花费 10 秒 钟 时 间 ， 求 执行 的 时 钟 周期 数 和 指令 数 。 

c. 我 们 试图 把 执行 时 间 减 少 30%， 但 这 会 引起 CPI 增加 20%。 那 么 时 钟 频率 应 该 是 多 少 才能 
达到 时 间 减 少 30% 的 目的 ? 
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1.6 


1.7 


1.8 


1.8.1 
1.8.2 
1.8.3 


1.9 


[20 ] < 1.6 > 同一 个 指令 集体 系 结构 有 两 种 不 同 的 实现 方式 。 根 据 CPI 的 不 同 将 指令 分 成 四 类 
(A、B、C、D)。P1 的 时 钟 频率 为 2.5GHz，CPI 分 别 为 1!、2、3、3 ; P2 时 钟 频率 为 3GHz， 
CPI 分 别 为 2、2、2、2。 

给 定 一 个 程序 ， 有 1.0 x 10 条 动态 指令 ， 按 如 下 比例 分 为 四 类 : A,10%; B,20%; C,50%; D 
20%。 那么 P1 和 了 2 哪个 更 快 ? 
a. 每 种 实现 方式 的 全 局 CPI 是 多 少 ? 
b. 计算 两 种 情况 下 的 时 钟 周期 数 。 
[15 ] < 1.6 > 编译 器 对 应 用 有 较 深 的 影响 。 假 定 有 一 个 程序 , 皮 编 译 器 A 编译 处 理 得 到 的 动态 
指令 数 为 1.0 x 10?， 执 行 时 间 为 1.1s; 若 采用 编译 器 B， 动 态 指令 数 为 1.2 x 10"， 执 行 时 间 为 
1.5s。 
a. 假设 处 理 器 时 钟 周 期 都 为 Ins， 求 每 个 程序 的 平均 CPI。 
b. 假 定编 译 后 的 程序 在 两 个 不 同 处 理 器 上 的 执行 时 间 相同 ， 求 运行 编译 器 A 产生 代码 的 处 理 

器 的 时 钟 ， 相 对 于 运行 编译 器 B 产生 代码 的 处 理 器 的 时 钟 快 多 少 ? 
<. 假设 开发 了 一 种 新 的 编译 器 ， 只 用 6.0 x 10 条 指令 ,平均 CPI 为 1.1。 求 使 用 新 编译 器 相对 
于 使 用 编译 器 A 和 B 的 加 速 比 。 

2004 年 发 布 的 Pentium 4 Prescott 处 理 器 时 钟 频率 为 3.6GHz， 工 作 电压 为 1.25V。 假 定 平 均 情况 
下 静态 功 耗 为 10W， 动 态 功 耗 为 90W。2012 年 发 布 的 Core i5 Ivy Bridge 时 钟 频率 为 3.4GHz， 
工作 电压 为 0.9V。 假 定 平均 情况 下 静态 功 耗 为 30W， 动 态 功 耗 为 40W。 
[5] <1.7> 分 别 求 出 每 个 处 理 器 的 平均 电容 负载 。 
[5] <1.7> 求 出 每 种 技术 中 静态 功 耗 占 总 功 耗 的 比例 ， 以 及 静态 功 耗 相对 于 动态 功 耗 的 比率 。 
[15 ] < 1.7 > 如 果 要 将 整体 功 耗 降低 10%， 那么 电压 要 降低 多 少 才能 保持 漏电 流 不 变 ? 注意: 
功 耗 定义 为 电压 与 电流 的 乘积 。 
在 一 个 处 理 器 中 ,假定 算术 运算 指令 、load/store 指令 和 分 支 指令 的 CPI 分 别 是 1、12 和 5; 一 
个 程序 在 单个 处 理 器 上 运行 需要 执行 2.56 x 10? 条 算术 指令 、1.28 x 10? 条 load/store 指令 和 
2.56 x 10" 条 分 支 指令 ; 每 个 处 理 器 的 时 钟 频率 都 为 2GHz。 
现 假定 程序 并 行 运行 在 多 核 上 ， 分 配 到 每 个 处 理 器 上 运行 的 算术 指令 和 load/store 指令 数 为 运行 
于 单 核 处 理 器 时 的 总 指令 数 除 以 0.7xp(p 是 处 理 器 的 数量 )， 而 每 个 处 理 器 的 分 支 指令 数 保 
持 不 变 。 

5 ] <1.7> 求 出 处 理 器 核 数 分 别 为 1.2、4、8 时 程序 的 总 执行 时 间 ， 以 及 相对 于 单 核 处 理 器 的 
加 速 比 。 

10 ] < 1.6, 1.8 > 如 果 算 术 指令 的 CPI 翻 倍 ,那么 在 处 理 器 核 数 分 别 为 1、2、4、8 时 ， 对 执行 
时 间 有 何 影响 ? 

10 ] < 1.6, 1.8 > 单 核 处 理 器 中 load/store 指令 的 CPI 应 该 降低 多 少 ， 才 能 使 单 核 处 理 器 的 性 
能 与 四 核 处 理 器 的 〈 假 定 每 核 CPI 保持 不 变 ) 相当 ? 
假定 一 个 直径 15cm 的 晶 圆 ，( 相 对 ) 成 本 是 12， 包 含 84 片 管 芯 ， 缺 陷 率 为 0.020 瑕 兹 /cm*。 另 
一 个 直径 20cm 的 晶 圆 ， 成 本 是 15， 包 含 100 片 管 芯 ， 缺 陷 率 为 0.031 甫 疯 /cm?。 

10] <1.5 > 求 出 每 块 晶 圆 的 成 品 率 。 

5] <1.5> 求 出 每 块 晶 贺 上 每 片 管 芯 的 成 本 。 

5 ] < 1.5 > 如 果 每 晶 圆 的 管 芯 数 增加 10%， 每 单位 面积 的 环 疯 数 增加 15%， 求 管 芯 面积 和 成 
品 率 。 

5] <1.5> 制造 工艺 的 进步 使 成 品 率 从 0.92 上 升 到 0.95。 假 定 管 芯 面积 为 200mm2， 求 每 块 晶 





[8] 
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圆 上 单位 面积 的 甫 疯 数 。 

1.11 SPEC CPU 2006 的 bzip2 基准 程序 在 AMD Barcelona 处 理 器 上 执行 的 指令 数 为 2.389 x 10*， 执 
行 时 间 为 7308， 参 考 时 间 为 9650s。 

1.11.1 [5] < 1.6, 1.9> 如 果 时 钟 周期 时 间 为 0.333ns,， 求 CEI 值 - 

1.11.2 [5] <1.9> 求 SPEC 分 值 。 

1.11.3 [5] < 1.6, 1.9> 如 果 基 准 程序 的 指令 数 增加 10%，CPI 不 变 ， 求 CPU 时 间 增 加 多 少 ? 

1.11.4 [5] < 1.6, 1.9 > 如 果 基准 程序 的 指令 数 增加 10%，CPI 增 加 5%， 求 CPU 时 间 增 加 多 少 ? 

1.11.5 [5] < 1.6, 1.9 > 根据 上 题 中 指令 数 和 CPI 的 变化 , 求 SPEC 分 值 的 变化 。 

1.11.6 [10] <1.6> 假 设 正在 开发 时 钟 频率 为 4GHz 新 款 AMD Barcelona 处 理 器 ， 指 令 集中 增加 了 一 
些 新 的 指令 ， 从 而 使 指令 数目 减少 了 15%， 程 序 的 执行 时 间 减 少 到 了 700s， 新 的 SPEC 分 值 
为 13.7, 求 新 的 CPL， 

1.11.7 [10] < 1.6 > 当时 钟 频率 由 3GHz 上 升 到 4GHz 时 ， 上 一 题 算出 的 CPI 比 练习 题 1.11.1 中 的 高 。 
判断 CP1 的 升 高 是 否 与 时 钟 频 率 升 高 相同 ? 如 果 不 同 ， 为 什么 ? 

1.11.8 [5] <1.6> CPU 时 间 减 少 了 多 少 ? 

.11.9 [10] < 1.6 > 对 第 二 个 基准 程序 libquantum， 假 定 执行 时 间 为 960ns,CPI 为 1.61， 时 钟 频 率 为 
3GHz。 在 时 钟 频率 为 4GHz 时 ， 执 行 时 间 降 低 10%，CPI 不 变 ， 求 指令 数 。 

1.11.10 [10] < 1.6 > 在 指令 数 和 CPI 保持 不 变 的 前 提 下 ， 如 果 要 将 CPU 时 间 进 一 步 减少 10%， 求 时 
钟 频 率 。 

1.11.11 [10] < 1.6> 在 指令 数 保持 不 变 的 前 担 下， 如 果 要 将 CPI 降低 15%,CPU 时 间 减 少 20%， 求 时 
钟 频率 。 

1.12 “1.10 节 已 讨论 过 用 性 能 公式 的 于 集 作为 性 能 指标 的 陷阱 。 为 了 进一步 说 明 ， 考 虑 下 面 两 种 处 理 
器 。P1 的 时 钟 频率 为 4GHz， 平均 CPI 为 0.9， 需 要 执行 5.0 x 10? 条 指令 ; P2 的 时 钟 频率 为 
3GHz, 平均 CPI 为 0.75, 需要 执行 1.0 x 10? 条 指令 。 

1.12.1 [5 ] < 1.6, 1.10> 一 个 常见 的 廖 误 是 认为 时 钟 频率 最 高 的 计算 机 具有 最 高 的 性 能 。 这 种 说 法 对 
P1 和 P2 是 否 成 立 ? 
1.12.2 [10] < 1.6, 1.10 > 另 一 个 谬误 是 认为 执行 指令 最 多 的 处 理 器 需要 更 多 的 CPU 时 间 。 假 定 P1 
正在 执行 1.0 x 10? 条 指令 ,Pl 和 P2 的 CPI 不 变 , 计算 在 P1 执行 1.0 x 10? 条 指令 的 时 间 里 ,P2 
可 以 执行 多 少 条 指令 ? 
1.12.3 [10] < 1.6, 1.10 > 一 个 常见 的 绢 误 是 用 MIPS (每 秒 百 万 条 指令 ) 来 比较 两 台 不 同 的 处 理 器 的 
性 能 ， 并 认为 MIPS 最 大 的 处 理 器 具有 最 高 的 性 能 。 此 说 法 对 Pl 和 P2 成 立 吗 ? 
1.12.4 [10] <1.10> 另 一 个 常见 的 性 能 标志 是 MFLOPS (每 秒 百 万 条 浮 点 指令 )， 其 定义 为 
WP 浮 点 操作 的 数目 
执行 时 间 x 105 
MFLOPS 与 MIPS 有 同样 的 问题 。 假 定 Pl 和 P2 上 执行 的 指令 有 40% 是 浮 点 指令 ， 求 这 两 台 机 
器 上 的 MFLOPS。 

1.13 1.10 节 提 到 的 另 一 个 陷阱 ， 是 期 望 通过 只 改进 计算 机 的 一 个 方面 来 提高 总 体 性 能 。 假 如 一 台 计 
算 机 运行 一 个 程序 需要 250s， 其 中 70s 用 于 执行 浮 点 指令 ，85s 用 于 执行 L/S 指令 ，40s 用 于 
执行 分 支 指令 。 

1.13.1 [5] < 1.10 > 如 果 浮 点 操作 的 时 间 减 少 20%， 总 时 间 将 减少 多 少 ? 
1.13.2 [5] < 1.10 > 如 果 总 时 间 减 少 20%， 整 数 (INT) 操作 时 间 应 减少 多 少 ? 
1.13.3 [5] < 1.10 > 如 果 只 减少 分 支 指令 时 间 ， 总 时 间 能 否 减少 20% ? 
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1.14 ”假定 一 个 程序 需要 执行 50 x 10 条 浮 点 指令 、110 x 10 条 整数 指令 、80 x 10' 条 L/S 指令 和 
16 x 10 条 分 支 指令 。 每 类 指令 的 CPI 分 别 是 1、1、4、2。 假 定 处 理 器 的 时 钟 频率 为 2GHz。 
1.14.1 [10] < 1.10 > 如 果 要 将 程序 运行 速度 提高 为 原来 的 2 倍 ， 浮 点 指令 的 CPI 需 如 何 改进 ? 
1.14.2 [ 10 ] < 1.10 > 如 果 要 将 程序 运行 速度 提高 为 原来 的 2 倍 ，L/S 指令 的 CPI 需 如 何 改进 ? 
1.14.3 [5] < 1.10 > 如 果 整 数 和 浮 点 指令 的 CPI 减少 40%, L/S 和 分 支 指令 的 CPI 减少 30%， 程 序 的 
执行 时 间 能 改进 多 少 ? 
1.15 [5] < 1.8> 对 于 在 多 核 处 理 器 上 运行 的 程序 来 说 ， 每 一 个 处 理 器 上 的 执行 时 间 包括 计算 时 
间 、 临 界 区 加 锁 的 开销 以 及 核 间 数据 通信 的 时 间 。 
假定 一 个 程序 在 处 理 器 上 执行 时 需要 t= 100s。 当 运行 在 p 个 处 理 器 上 时 ， 每 个 处 理 器 需要 ps， 
以 及 额外 4s 开销 (该 开销 与 处 理 器 数量 无 关 )。 在 处 理 器 数目 分 别 为 2、4、8、16、32、64、 
128 时 ， 计 算 每 个 处 理 器 的 执行 时 间 。 在 每 种 情况 下 ， 列 出 相对 于 单 处 理 器 的 性 能 加 速 比 ， 
以 及 实际 加 速 比 与 理想 加 速 比 (没有 额外 开销 时 的 加 速 比 ) 的 比值 。 
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指令 : 计算 机 的 语言 





接口 





计算 机 的 五 个 经 典 部 件 


2.1 引言 

想 要 命令 计算 机 ， 就 必须 使 用 计算 机 的 语言 。 计 算 机 语言 中 的 
基本 单词 称 为 指令 ， 而 一 台 计 算 机 的 全 部 指令 ( 即 词汇 库 ) 称 为 该 计 
算 机 的 指令 集 ( instruction set)。 本 章 将 介绍 一 种 实际 计算 机 的 指令 
集 及 其 两 种 形式 ， 一 种 是 人 们 编程 书写 的 形式 ， 另 一 种 是 计算 机 所 
能 识别 的 形式 。 我 们 将 以 自 顶 向 下 的 方式 来 介绍 指令 ， 从 汇编 语言 
助 记 符 (看 似 受 限 的 程序 设计 语言 ) 开始 ， 逐 步 精 炼 ， 直 至 实际 计算 
机 的 语言 。 第 3 章 将 继续 采用 这 种 向 下 探究 的 方式 ， 揭 示 算 术 运算 
的 硬件 以 及 浮 点 数 的 表示 方法 。 





我 对 上 帝 说 西班牙 语 ， 对 
女人 说 意大利 语 ， 对 男人 
说 法 语 ， 对 我 的 马 说 德语 
Charles V, Holy Roman 
Emperor (1500—1558 ) 


指令 集 : 一 个 给 定 的 计算 机 
体系 结构 所 能 理解 的 所 有 
命令 ， 即 所 有 指令 的 集合 。 


也 许 你 会 认为 计算 机 的 语言 就 像 人 类 的 自然 语言 一 样 种 类 繁多 ， 但 实际 上 机 器 语言 之 间 


十 分 相似 ， 其 差异 性 更 像 人 类 语言 中 的 “方言 ”， 而 非 独立 的 语言 。 
语言 ， 即 可 举一反三 ， 其 他 种 类 的 机 器 语言 也 就 容易 理解 了 。 


因此 ， 理 解 了 一 种 机 器 


本 书 选 择 的 指令 集 是 ARMv8， 由 ARM 公司 在 2011 年 发 布 。 为 了 便于 教学 ， 本 书 只 使 用 
了 ARMv8 的 一 个 子 集 。 书 中 采用 术语 ARMv8 表示 原始 的 完整 指令 集 ， 用 LEGv8 表示 用 于 教学 
的 指令 集 子 集 ,该 子 集 当然 是 基于 ARMv8 指令 集 的 。( LEGv8 是 ARMv8 的 一 种 双关 语 ， 也 是 
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“Lessen Extrinsic Garmlity ”的 首 字母 缩写 -) 在 “ 精 解 ”部 分 我 们 会 介绍 两 者 的 区 别 。 本 章 和 一 些 
其 他 章节 中 都 有 专门 一 节 概 述 LEGv8 中 所 没有 的 ARMv8 的 特点 ( 见 2.19 节 、3.8 节 和 5.14 节 )。 

为 了 证 明 掌握 一 种 指令 集 后 其 他 的 指令 集 就 很 容易 理解 这 一 点 ,我们 将 简单 介绍 以 下 其 
他 三 种 较为 流行 的 指令 集 。 

se MIPS 是 自 20 世纪 80 年 代 以 来 出 现 的 一 种 非常 优秀 的 指令 集 。 

。 ARMv7 也 是 由 ARM 公司 发 布 的 ， 但 地 址 范围 是 32 位 ， 而 不 是 ARMv8 中 的 64 位 。 
2015 年 ，ARM 处 理 器 芯片 的 产量 超过 140 亿 片 ， 这 使 得 ARM 成 为 世界 上 最 流行 的 
指令 集 。 在 我 们 看 来 ,颇具 讽刺 意味 的 是 ，ARMv8 比 ARMv7 更 接近 于 MIPS。 

e 最 后 一 个 例子 是 Intel x86， 它 在 PC 领域 和 后 PC 时 代 的 云 计算 领域 占 统治 地 位 。 

指令 集 间 的 相似 性 ， 一 方面 是 因为 所 有 计算 机 都 是 基于 基本 原理 相似 的 硬件 技术 所 构建 

的 ， 男 一 方面 是 因为 所 有 计算 机 都 必须 提供 一 些 相似 的 基本 操作 。 此 外 ,计算 机 设计 者 有 一 
个 共同 的 目标 : 找到 一 种 语言 ， 可 方便 硬件 和 编译 器 的 设计 ， 且 使 性 能 最 佳 ， 同 时 使 成 本 和 
功 耗 最 低 。 这 个 目标 由 来 已 入 下面 这 段 话 在 人 们 能 买 到 计算 机 之 前 就 有 了 ， 虽 然 写 于 1947 
年 ， 但 在 今天 依然 适用 : 


用 形式 还 辑 的 方法 可 以 很 容易 看 到 ， 存 在 某 种 “指令 集 ” 在 理论 上 足以 控 ， 制 并 引起 任 
何 操作 序列 的 执行 …… 在 选择 “指令 集 ” 时， 从 现在 的 观点 来 看 ， 真 正 的 决定 性 因素 其 实 更 
具 实 用 性 : 实现 “指令 集 ” 要 求 的 设备 的 简单 性 ， 其 应 用 对 于 解决 实际 问题 的 明确 性 ， 及 其 
解决 这 些 问题 的 处 理 速度 。® 


Burks, Goldstinc, and von Ncumann, 1947 


无 论 是 对 20 世纪 50 年 代 的 计算 机 ， 还 是 对 现代 的 计算 机 来 说 ,“ 设 备 简单 性 ”都 是 值 
得 考虑 的 重要 因素 。 本 章 将 讲解 符合 此 原则 的 一 种 指令 集 ， 介 绍 其 怎样 用 硬件 表示 ， 以 及 其 
与 高 级 编程 语言 之 间 的 关系 。 我 们 的 示例 使 用 C 语言 编写 ，2.15 节 介 绍 了 使 用 像 Java 这 样 
的 面向 对 象 语言 时 会 有 何 变 化 。 

通过 理解 如 何 表述 指令 ， 读 者 也 将 发 现 计 算 的 秘密 : 存储 程序 “| 存储 程序 思想 ， 多 种 类 型 
思想 ( stored-program concept)。 此 外 ， 通 过 使 用 机 器 语言 编程 ， 并 | 的 指令 和 数据 均 以 数字 形 
在 本 书 提供 的 模拟 器 中 运行 ， 读 者 可 以 锻炼 一 门 新 的 “外 语 ”技巧 ， | 式 育 储 于 存储 器 中 ， 该 思 
并 将 进一步 体会 到 编程 语言 和 编译 优化 对 程序 性 能 的 影响 。 本 章 最 | 加 二 也 合生 开 守 和 
后 简要 介绍 指令 集 的 发 展 历史 和 其 他 的 计算 机 “方言 ”。 

本 书 在 介绍 指令 集 时 ， 每 次 介绍 一 点 ， 并 给 出 相应 的 理论 描述 和 计算 机 结构 。 采 用 自 顶 
向 下 、 循 序 渐进 的 方法 介绍 各 部 件 及 其 解释 ， 使 学 习 机 器 语言 变 得 十 分 有 趣 。 图 2-1 给 出 了 
本 章 将 要 介绍 的 指令 集 的 预览 。 
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LEGv8 操 作 数 
| 321 考 | i 寄存 器 用 于 数据 的 快速 存 取 。 在 LEGv8 中 ， 数 据 只 能 存放 在 寄存 器 中 以 


参与 算术 运算 ， 课 存 器 XZR 的 值 恒 为 0 








| MamoryOl. Meaney ee 存储 器 只 能 通过 数据 传输 指令 访问 。LEGv8 采 用 字 节 编 址 ， 所 以 连续 的 双 
Ri 
ua ea S11 686 018 427 387 | 字 地 址 相差 8。 存 销 器 存储 数据 结构 、 孝 组 和 洲 出 的 寄存 器 








图 2-1 本 章 讨论 的 LEGv8 汇编 语言 。 这 些 信息 也 可 以 在 LEGv8 参考 数据 卡 s 的 第 1 列 中 找到 


日 满足 指令 集 要 求 的 硬件 要 简单 .能 够 解决 实际 问题 ， 并 且 解 决 问题 的 速度 ( 即 性 能 ) 要 快 。 一 一 译 者 注 
加 见 本 书 封面 和 封底 的 背面 - 一 一 编辑 注 
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需 2 间 





LEGv8 汇 编 语言 
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add = X2 + X3 三 个 寄存 器 操作 数 
subtract ~ 三 个 寄存 器 操作 数 
add immediate = X2+20 用 于 加 常数 习 
subtract immediate SUBI XI。 X2, 20 | XI = X2 二 20 用 于 减 常数 
addandsetfiags |ADDS Xl. X2, X3 ,XI = X2 + 娄 加 法 ， 设 置 条 件 码 
算术 运算 人 SUBS X1，x2，X3 JX1 = X2—X3 减法 ， 设 置 条 件 码 
add immediate and 下 > 划 
i l ADDIS X1, Xx2, 20 |X1= xX2+20 加 常数 ， 设 置 条 件 码 
ee SUBIS X1, X2, 20 |X1=X%X2—20 威 常数 ， 设 置 条 件 码 
load register LDUR X1, [X2,40] |X1 = Memory[X2 + 40] 将 双 字 从 存储 器 取 到 寄存 器 
store register STUR X1, [X2,40] | Memory[X2 + 40] ~ Xl 将 双 字 从 寄存 器 存 入 存储 器 
load signed word | LDURSW X1,[X2,40] |X1 ~ Memory[X2 + 40] | 将 一 个 宇 从 存储 器 取 到 寄存 器 
| store word STURW X1, [X2,40] | Memory[X2 + 40] = X1 将 一 个 字 从 寄存 器 存 入 存储 器 
load haf LDURH X1, [X2,40] |X1 ~ Memory[X2 + 40] 将 半 字 从 存储 器 取 到 寄存 器 
Store haif STURH X1, [X2,40] | Memory[X2 + 40] = X1 将 半 宇 从 寄存 器 存 入 存储 器 
[sadpyee [DURB Xi, CX2,40] [Xi = Memory[X2 + 40] 将 一 个 宇 节 从 存储 器 取 到 寄存 器 
Store byte STURB X1, [X2,40] | Memory[X2 + 40] ~ Xl 将 一 个 宇 节 从 寄存 器 存 入 存储 器 
Rais Ye |LDxR Xl, [xX2,0] | xl = Memory[X2] 取 数 ， 原 子 交换 的 第 一 部 分 
数据 传输 ore sxeUSNe 。 | STxR x1。X3 [X2] | Memory[X2]-X1;X3-0 or 1 | 存 数 ， 原 子 交换 的 第 二 部 分 
i a 
move wide with zero | MOVZ X1,20, LSL 0 a or 20 | 到 16 位 党 霓 ， 其 作 位 证 0 
Rk xl pe 3 
move wide with keep| MOVK Xx1,20, LSL 0 3 有 wm 20 or 20 | 到 46 位 常数 ， 其 余 位 不 变 
and AND Xi, Xx2, x3 |Xi = X2&X3 三 个 寄存 器 操作 数 ， 按 位 与 
Inclusve or ORR Xl, x2, x3 [Xl -X21| x3 个 雪 存 器 操作 数 ， 技 位 或 
exclusive or _ EOR Xl, X2, Xx3 [Xl ~- X2 wy3 三 个 寄存 器 操作 数 ， 技 位 看 或 
and immediate ANDI Xl, x2, 20 |X1 ~- X2& 20 寄存 器 数 和 常数 按 位 与 
还 加 运算 | immedte |ORRI Xl, X2, 20 | XI = X2 | 20 寄存 器 数 和 沉 数 按 位 或 
exclusive or 
Wei EORI Xx1, xX2, 20 | xl = X2 ^ 20 寄存 器 数 和 常数 按 位 异 或 
logical shift left LSL Xi, x2, 10 [Xi -Xx2 < 10 向 左 移动 常数 位 
logical shi rignt |LSR Xl, x2, 10 |X1 ~ x2 >> 10 向 右 移动 常数 位 
compare and branch| CBZ Xl, 25 if (Xl 一 0) go to 3 | 
Deol pe + 100 比较 是 否 等 于 0; PC 相对 跳 转 
compare and branch| CBNZ Xl, 25 if (Xl I= 0) go to es 
条 件 分 支 | on not equal 0 PC + 100 比较 是 否 不 等 于 0; PC 相对 跳 转 
branch conditionally | B, cond 25 证 (condition true) go to| 条 件 码 检测 ， 结 果 为 真 则 跳 转 
PC + 100 
branch | 2500 go to PC + 10000 | 咒 转 到 有 目标 地 址 ;PC 相对 
无 条 件 分 支 | branch to reglster | BR X30 | go to X30 用 于 switch 语 句 ， 过 程 返 回 
branch with link BL 2500 |X30 = PC + 4; PC + 10000 | 用 于 PC 相对 的 过 程 调用 
图 2-1 ( 续 ) 
2.2 ”计算 机 硬件 的 操作 计算 机 必须 有 执行 基本 算 
任何 计算 机 都 必须 能 够 执行 算术 运算 。LEGv8 的 汇编 语句 站 让 箱 挤 作 的 指 直 


ADD a, 


b,c 


Burks, Goldstine, and von 
Neumann, 1947 
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命令 计算 机 将 两 个 变量 b 和 < 相 加 ， 并 将 结果 放 入 变量 a 中 。 

这 种 助 忆 符 表示 是 固定 的 : 每 条 LEGv8 算术 指令 只 执行 一 个 操作 ,并 且 有 和 且 仅 有 三 个 
变量 。 例 如 ， 将 变量 bp、c、d、e 之 和 放 人 变量 a 中 (本 节 并 不 深究 “变量 ”的 含义 ,下 一 
节 将 详细 解释 )。 

下 面 的 指令 序列 将 实现 四 个 变量 的 相 加 : 


ADD a, b,c // The sum of band cis placed in a 
ADD a, a, d // The sum of b, c, and d is now in a 
ADD a，a，e // The sum of b, c, d, and e is now in a 


因此 ， 对 四 个 变量 求 和 需要 三 条 指令 。 

上 述 每 行 代码 中 ， 符 号 “ //” 右 边 的 是 注释 ， 用 于 帮助 人 们 理解 程序 ， 而 计算 机 将 忽 
略 这 些 内 容 。 注 意 与 其 他 编程 语言 不 同 的 是 ， 这 种 语言 的 每 一 行 最 多 只 有 一 条 指令 。 另 一 点 
与 C 语言 不 同 的 是 ， 注 释 总 是 在 一 行 的 末尾 结束 。 

与 加 法 类 似 的 指令 一 般 都 有 三 个 操作 数 : 两 个 用 于 运算 ， 一 个 保存 结果 。 要 求 每 条 指令 
有 且 仅 有 三 个 操作 数 ， 这 一 点 符合 硬件 简单 性 的 设计 原则 : 操作 数 个 数 可 变 的 硬件 要 比 操作 
数 个 数 固定 的 硬件 复杂 得 多 。 这 种 情况 反映 了 硬件 设计 三 条 基本 原则 的 第 一 条 : 

设计 原则 1: 简单 源 于 规整 。 

下 面 的 两 个 示例 程序 展示 了 用 高 级 编程 语言 编写 的 程序 和 用 汇编 语言 编写 的 程序 之 间 的 
关系 。 


| 例题 | 把 C 语言 中 的 两 条 赋值 语句 编译 成 LEGv8 一 一 一 一 一 一 
本 例 中 的 C 程序 片段 包含 五 个 变量 a、b、c、d 和 e。 因 为 Java 语言 由 C 语言 演化 而 来 ， 
所 以 本 例 及 以 后 若干 例子 对 这 两 种 高 级 语言 均 适 用 : 
0 
d=a-e; 
编译 器 将 C 语言 程序 转换 为 LEGv8 汇编 指令 。 写 出 由 编译 器 生成 的 LEGv8 代码 。 
| 答案 | 一 条 LEGv8 指令 对 两 个 源 操 作 数 进行 操作 ， 并 将 结果 存 入 目的 寄存 器 。 因 此 上 面 两 
条 简单 的 C 语句 可 直接 编译 为 如 下 两 条 LEGv8 汇编 指令 : 


ADD a, b,c 
SUB d, a, e 








| 例题 | 将 一 条 复杂 C 语句 编译 成 LEGv8 语句 
下 面 一 条 复杂 的 C 语句 包含 五 个 变量 £、g、h、 主 和 上 j: 
i hk: 
C 编译 器 将 产生 什么 样 的 LEGv8 汇编 代码 ? 
| 答案 | 因为 一 条 LEGv8 指令 仅 执行 一 个 操作 ， 所 以 编译 器 必须 将 这 条 C 语句 编译 成 多 条 汇 
编 指 令 。 若 第 一 条 指令 计算 g 与 h 的 和 ， 其 结果 必须 暂 存在 某 一 个 地 方 。 因 此 ， 编 译 器 需 创 
建 一 个 临时 变量 +0: 
ADD to0,g,h // temporary variable t0 contains g + h 


虽然 下 一 个 操作 是 减法 ,但 在 做 减法 操作 之 前 ， 必 须 先 计算 出 i 与 3 的 和 。 因 此 ， 第 二 条 指 
令 将 谋 、j 之 和 存放 在 由 编译 器 创建 的 另 一 个 临时 变量 tl 中 : 
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ADD tl,i,j // temporary variable tl contains i +j 


最 后 ， 用 一 条 减法 指令 将 t0 和 tl 中 的 值 相 减 ， 结 果 存 人 变量 上， 完成 编译 : 
SUB f,t0,tl // f gets to ~ tl, which is (g +h) - (i+j) 





二 锯 为 了 增强 可 移植 性 ，Java 最 初 被 设 定 为 依靠 软件 解释 器 执行 的 语言 。 解 释 器 的 指 
令 集 称 作 Java 字 节 码 ( Java bytecode， 见 2.15 节 )， 它 与 LEGv8 指令 集 有 很 大 不 同 。 为 使 性 
能 与 等 效 的 C 程序 接近 ，Java 系统 现在 的 典型 做 法 是 将 字 节 码 编译 成 类 似 LEGv8 这 样 的 本 
地 机 器 指令 。 因 为 Java 完成 编译 的 时 间 通 常 迟 于 C， 所 以 Java 编译 器 常 被 称 为 即时 ( Just In 
Time，JIT) 编译 器 。2.12 节 展 示 了 在 程序 启动 阶段 JIT 是 如 何 遂 于 C 编译 器 的 ，2.13 节 展 
示 了 Java 程序 编译 执行 和 解释 执行 对 性 能 的 影响 。 








2.3 ”计算 机 硬件 的 操作 数 


与 高 级 语言 不 同 ，LEGv8 算术 运算 指令 的 操作 数 有 严格 的 限 “| 双 字 : 计算 机 中 的 一 种 基 
制 一 一 必须 来 自 寄存 器 。 坷 存 器 直接 由 硬件 构建 ， 卫 数量 有 限 ， 是 “| 本 访问 单位 ， 通 党 位 为 
计算 机 硬件 设计 的 基本 元 素 。 当 计算 机 设计 完成 后 ， 寄 存 器 对 程序 | 忆 全 ， 二 生生 本 
员 是 可 见 的 ， 你 可 以 把 寄存 器 想象 成 构造 计算 机 这 座 建筑 的 砖 块 。 | 罗 中 与 宁 存 器 大 小 相同 
在 LEGv8 体系 结构 中 每 个 寄存 器 的 大 小 为 64 位 。LEGv8 体系 结构 
中 将 64 位 称 为 双 字 (doubleword)，32 位 称 为 字 (word)。 训 : 直 生 机 宙 的 一 种 关 本 

高 级 语言 的 变量 与 寄存 器 的 一 个 主要 区 别 在 于 寄存 器 的 数量 是 “| 节 站 半 合 ， 直 党 各 全 为 
有 限 的 ， 现 代 计 算 机 (如 LEGv8 中 ) 一 般 有 32 个 寄存 器 ( 见 2.22 
节 关于 寄存 器 数目 演变 历史 的 讨论 ) 。 下 面 继续 以 自 顶 向 下 的 方式 逐步 介绍 LEGv8 语言 的 符 
号 表示 。 本 节 限定 LEGv8 算术 运算 指令 的 三 个 操作 数 必须 从 32 个 64 位 寄存 器 中 选取 。 

寄存 器 个 数 限制 为 32 个 ， 可 以 通过 硬件 设计 三 条 基本 原则 中 的 第 二 条 来 理解: 

设计 原则 2: 越 少 越 快 。 

大 量 的 寄存 器 可 能 会 使 时 钟 周期 变 长 ， 内 为 电信 号 传输 更 远 的 距离 必然 花费 更 长 的 时 间 。 

当然 ， 该 原则 也 不 是 绝对 的 ，31 个 寄存 器 也 不 一 定 比 32 个 更 快 。 因 此 ， 设 计 者 必须 在 
程序 期 望 更 多 寄存 器 和 设计 师 期 望 更 高 时 钟 频率 之 间 进 行 权衡 。 寄 存 器 个 数 不 超 过 32 个 的 
另 一 个 原因 是 指令 格式 的 位 数 (32 位 ) 限制 ， 详 见 2.5 节 。 

第 4 章 论证 了 寄存 器 在 硬件 结构 中 所 扮演 的 核心 角色 。 该 章 同样 曾 述 了 有 效 利 用 寄存 器 
对 于 提高 程序 性 能 极为 关键 。 

编写 指令 时 ， 尽 管 可 以 简单 地 使 用 序号 0 ~ 31 表示 相应 的 寄存 器 ， 但 在 LEGv8 中 ， 除 
一 些 特殊 的 寄存 器 名 称 外 ， 通 常 采用 X 后 面 跟 寄存 器 编号 的 方式 来 表示 寄存 器 。 


| 例题 | 使 用 寄存 器 编译 C 赋值 语句 
将 程序 变量 和 寄存 器 对 应 起 来 是 编译 器 的 工作 之 一 。 以 前 面 提 到 的 C 赋值 语句 为 例 : 
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下 = 娩 用 一 时 十 肌 ; 
寄存 器 X19、X20、X21、X22 和 X23 依次 分 配给 变量 E、g、h 、i 和 j。 请 写 出 编译 后 的 
LEGv8 代码 。 
| 答案 | 除了 将 变量 用 上 述 寄存 器 代替 、 将 两 个 临时 变量 用 x9 和 x10 代替 外 ， 编 译 后 生成 
的 代码 与 前 面 例题 中 的 代码 非常 相似 : 


ADD X9,X20,X21 // register X9 contains g+h 
ADD X10,X22,X23 // register X10 contains i +j 
SUB X19,X9,X10 // f gets X9 — X10. which is (g+ h)— (i+j) 





2.3.1 存储 器 操作 数 


在 编程 语言 中 ， 有 仅 舍 一 个 数据 元 素 的 简单 变量 (如 上 面 的 例子 )， 也 有 如 数组 和 结构 体 
那样 复杂 的 数据 结构 。 这 些 复杂 数据 结构 中 的 数据 元 素 可 能 远 多 于 计算 机 中 寄存 器 的 个 数 。 
计算 机 怎样 来 表示 和 访问 这 样 天 的 结构 呢 ? 

回忆 一 下 第 1 章 以 及 本 章 开头 所 描述 的 计算 机 五 大 组 成 部 分 。 处 理 器 只 能 将 少量 数据 保 
存在 寄存 器 中 ， 但 存储 器 可 以 存放 数 十 亿 的 数据 元 素 。 因 此 ， 数 据 结构 如 数组 和 结构 体 ) 
存放 在 存储 器 中 。 

如 上 所 述 ，LEGv8 的 算术 运算 指令 只 对 寄存 器 进行 操作 ， 因 此 ， 
LEGv8 必须 包含 在 存储 器 和 寄存 器 之 间 传输 数据 的 指令 。 这 些 指令 
称 为 数据 传输 指令 ( data transfer instruction)。 为 了 访问 存储 器 中 的 
字 或 双 字 ， 指 令 必 须 给 出 存储 器 的 地 址 (address)。 可 将 存储 器 视 为 
一 个 很 大 的 一 维 数 级、 其 地 址 相当 于 数组 的 索引 ， 从 0 开始。 例如 ，。 | 加 


数据 传输 指令 ， 在 存储 器 
和 和 寄存 器 之 间 移 动 教 据 的 
命令 。 
































某 数据 元 素 位 置 的 值 。 
图 2-2 中 ,第 三 个 数据 元 素 的 地 址 为 2， 存放 的 数据 为 10。 

3 100 图 2-2 存储 器 地 址 和 存储 器 的 内 

小 10 容 。 如 果 存 放 的 元 素 是 双 

1 101 字 ， 那 么 这 些 地 址 就 是 错 

0 1 误 的 。 因为 LEGv8 按 字 

地 址 数据 节 编 址 ， 每 个 双 字 含 8 个 

处 理 器 存储 器 字 节 。 图 2-3 给 出 了 双 字 

性 一 一 :| 存放 的 存储 器 地 址 


将 数据 从 存储 器 复制 到 寄存 器 的 数据 传输 指令 通常 叫 作 取 数 (load) 指令 。load 指令 的 
格式 是 操作 码 后 接着 目的 寄存 器 ， 再 后 面 是 用 来 访问 存储 器 的 寄存 器 和 常数 。 常 数 和 第 二 个 
寄存 器 中 的 值 相 加 即 得 到 待 访问 的 存储 器 地 址 。 实 际 的 LEGv8 load 指令 助 记 符 为 LDUR， 表 
示 加 载 寄存 器 。 

睛 鳃 szpUR 中 的 口 表 示 不 可 扩展 的 (unscaled) 立即 数 ， 和 可 扩展 的 (scaled) 立即 数 
相对 ， 详 细 解 释 见 2.19 节 。 





| 例题 | 编译 一 个 操作 数 在 存储 器 中 的 赋值 语句 - 
设 A 是 一 个 含有 100 个 双 字 的 数组 ， 像 前 面 的 例题 一 样 ， 编 译 器 仍然 将 寄存 器 X20 、 
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X21 依次 分 配给 变量 g、h。 又 设 数组 A 的 起 始 地 址 (或 称 基 址 (base address) ) 存放 在 寄存 
器 X22 中 。 试 编译 下 面 的 C 赋值 语句 
g=h+ AC8]; 

的] | 答案 | 虽然 该 C 赋值 语句 只 有 一 个 简单 操作 ， 但 其 中 一 个 操作 数 在 存储 器 中 ， 所 以 首先 必 
须 将 AL8] 传输 到 寄存 器 中 。 该 数组 元 素 的 地 址 由 A 的 基 址 (X22 中 ) 加 上 该 元 素 序 号 8 构 
成 。 取 出 的 数据 放 在 一 个 临时 寄存 器 中 供 下 条 指令 使 用 。 由 图 2-2 可 知 ， 编 译 后 生成 的 第 一 
条 指令 为 (这 里 是 一 种 简化 描述 ， 后 面 会 对 这 条 指令 做 细微 的 调整 ): 2 

LDUR X9,[X22.#8] // Temporary reg X9 gets A[8] 
下 一 条 指令 可 对 X9 (其 值 等 于 AI8] ) 进行 操作 。 该 指令 将 h (在 X21 中 ) 加 上 ar8] (在 
X9 中 )， 并 将 结果 放 到 对 应 于 g 的 寄存 器 X20 中 : 

ADD X20,X21,X9 // g= h + AL8] 
用 于 计算 机 访 存 地 址 的 寄存 器 (本 例 中 为 X22) 称 为 基 址 寄存 器 ( base register)， 数 据 传输 指 
令 中 的 常数 (本 例 中 为 8 ) 称 为 偏 移 量 (offset) 。 a 


除了 为 变量 分 配 寄 存 器 以 外 ， 编 译 器 还 在 存储 器 中 为 数组 和 结构 体 这 
样 的 数据 结构 分 配 相应 的 存储 空间 ， 并 将 这 些 数据 结构 在 存储 器 中 的 起 始 地 址 放 到 数据 传输 









































指令 中 。 
很 多 程序 经 常用 到 8 比特 的 字 节 类 型 ， 事 实 上 目 . 
前 的 体系 结构 都 按 字 节 编 址 。 因 此 ， 双 字 的 地 址 和 其 所 24 100 
包括 的 8 字 节 中 某 个 字 节 的 地 址 相 匹配 ， 且 相 邻 双 字 的 16 0 
地 址 相差 8。 例如， 图 2-3 给 出 了 图 2-2 中 双 字 的 实际 8 101 
LEGv8 地 址 ， 其 中 第 三 个 双 字 的 字 节 地 址 是 16。 o 1 
有 的 计算 机 使 用 双 字 中 最 左边 或 “大 端 ”( big end) 字 节 地 址 数据 
字 节 的 地 址 作为 双 字 地 址 ， 而 有 的 则 使 用 最 右边 或 “小 
端 "(little end) 字 节 的 地 址 作为 双 字 地 址 。LEGv8 既 支持 ”处理 器 存 全 器 
大 端 模式 ( big-endian)， 也 支持 小 端 模式 (little-endian )。 于。 三 
只 有 在 考虑 以 双 字 方式 还 是 以 8 字 节 方式 访问 同一 个 数 ”图 2-3 LEGv8 中 双 字 的 存储 器 地 址 
据 时 ，“ 端 ”的 顺序 才 起 作用 ， 其 他 多 数 情 况 下 并 不 需要 和 存储 内 容 。 相 对 于 图 2-2， 
关注 该 问题 。 本 图 中 变化 的 地 址 采用 灰色 
字 节 寻 址 对 数组 索引 也 有 影响 。 在 上 面 的 代码 中 ， 显示 。 由 于 LEGv8 按 字 节 
为 了 得 到 正确 的 字 节 地 址 ， 与 基 址 寄存 器 X22 相 加 的 仿 编 址 ， 因 此 每 个 双 字 的 长 度 


移 量 必须 是 8X8 (或 64)， 这 样 才能 正确 选择 到 AI8] ， Se 雹 扯 生 二 风 人 玫 


而 不 是 AL8/8] 。( 参 见 2.20 节 相 关 陷 阱 的 介绍 。) 
与 取 数 (load) 指令 相对 应 的 指令 通常 叫 作 存 数 (store) 指令 ,将 数据 从 寄存 器 复制 
到 存储 器 中 。 存 数 指令 的 格式 和 取 数 指令 相似 : 首先 是 操作 码 ， 接 着 是 包含 待 存 储 数 据 
的 寄存 器 ， 然 后 是 基 址 寄存 器 ， 最 后 是 选择 具体 数组 元 素 的 偏 移 量 。 同 样 ， 访 存 地 址 由 
常数 和 基 址 寄存 器 共同 决定 。 LEGv8 的 存 数 指令 为 STUR， 表 示 将 寄存 器 内 容 存储 到 存储 
0] 关中。 


日 A 应 该 为 按 双 字 编 址 ， 本 题 的 描述 有 误 ， 或 者 就 是 所 谓 的 简化 描述 - 一 一 译 者 注 





插 信 :计划 规 的 语言 和 





国 网 | 在 很 多 体系 结构 中 ， 字 的 起 始 地 址 必须 是 4 的 倍数 ， 双 | 对 齐 限制 : 也 称 边 界 对 齐 ， 
字 的 起 始 地 址 必须 是 8 的 倍数 。 这 种 要 求 称 为 对 齐 限制 (alignment | 妥 求 存储 器 中 存放 的 数据 
restriction)。( 第 4 章 解释 了 为 什么 对 齐 会 加 速 数 据 传输 。) ARMv8 | 按 雪 所 的 自然 过 四 对齐” 
和 Intel x86 没有 对 齐 限制 ， 而 ARMv7 和 MIPS 有 对 齐 限制 。 

网 网 ARMv8 没有 对 齐 限制 并 不 完全 正确 。 对 于 大 多 数 数据 传输 指令 ，ARMv8 支持 对 
普通 存储 器 的 非 对 齐 访问 ， 但 栈 访问 和 取 指 令 必 须 遵守 对 齐 限制 。 

a 也 由 于 load 和 store 指令 中 的 地 址 是 二 进 制 ， 因 此 作为 主 存 的 DRAM 的 

容量 使 用 二 进 制 表示 ， 而 非 十 进 制 。 例 如 ， 使 用 gibibyte ( 2”) 或 tebibyte (2%”) 表示 ,而 
不 用 gigabyte ( 10? ) 或 terabyte ( 102 )， 见 图 1-1。 


| 例题 | 用 load/store 进行 编译 上 
假设 变量 h 存放 在 寄存 器 X21 中 ,数组 A 的 基 址 放 在 X22 中 。 那 么 下 面 C 赋值 语句 的 
LEGv8 汇编 代码 是 怎样 的 ? 
A[12] = h + A[8]; 


| 答案 | 虽然 该 C 语句 只 有 一 个 操作 ， 但 两 个 操作 数 都 在 存储 器 中 ， 因 此 需要 更 多 的 LEGv8 
指令 。 前 两 条 指令 基本 上 与 上 个 例题 中 的 相同 ， 但 本 例 按 字 节 寻 址 ，load 指令 使 用 偏 移 量 64 
来 选择 AL8] ， 并 且 加 法 指令 将 结果 放 在 寄存 器 x9 中 : 


LDUR X9，[X22,#64] // Temporary reg X9 gets A[8] 
ADD  X9,X21,X9 // Temporary reg X9 gets h + A[8] 


最 后 一 条 指令 将 加 法 结果 存放 到 存储 器 单元 A[12] 中 , 使 用 96 ( 8 x 12 ) 作为 偏 移 量 ，X22 
作为 基 址 寄存 器 。 


STUR X9, [X22,#96] // Stores h + A[8] back into A[12] 


LDUR 和 STUR 是 ARMv8 体系 结构 中 在 存储 器 和 寄存 器 之 间 复 制 双 字 的 指令 。 有 些 计算 机 
采用 其 他 的 指令 来 传输 数据 ， 如 Intel x86 体系 结构 ( 见 2.18 节 )。 


本 古 撕 国 | 很 多 程序 中 的 变量 个 数 要 远 多 于 计算 机 中 的 寄存 器 个 数 。 因 此 ， 编 译 
器 尽量 将 最 常用 的 变量 保持 在 寄存 器 中 ， 而 将 其 他 变量 放 在 存储 器 中 ， 通 过 load/store 指令 
在 寄存 器 和 存储 器 间 传 输 变量 。 将 不 常 使 用 的 变量 (或 稍 后 才 使 用 的 变量 ) 存放 到 存储 器 中 
的 过 程 叫 作 寄 存 器 溢出 (spilling register) 。 

根据 硬件 设计 原则 2( 越 少 越 快 )， 存储 器 肯定 比 寄存 器 慢 ， 因 为 寄存 器 数量 更 少 。 事 实 
的 确 如 此 ， 访 问 寄存 器 中 的 数据 要 快 于 访问 存储 器 中 的 数据 。 

此 外 ， 寄 存 器 中 的 数据 更 容易 利用 。 一 条 LEGv8 算术 运算 指令 能 读 两 个 寄存 器 ， 对 它 
们 进行 运算 ， 并 将 结果 写 回 。 一 条 LEGv8 数据 传输 指令 只 能 读 或 写 一 个 操作 数 ， 且 不 能 对 
它们 进行 运算 。 

与 存储 器 相 比 ， 宕 存 器 访问 时 间 短 、 吞 吐 率 高 ， 从 而 使 得 寄存 器 中 的 数据 访问 速度 快 并 
易于 使 用 。 访 问 寄存 器 相对 于 访问 存储 器 功 耗 更 小 。 因 此 ， 为 了 获得 最 高 的 性 能 并 节约 能 耗 ， 
指令 集 的 体系 结构 必须 拥有 足够 多 的 寄存 器 ， 并 且 编 译 器 必须 能 够 有 效 地 利用 这 些 寄存 器 。 

陋 盔 | 对比 寄存 器 和 内 存 的 能 耗 与 性 能 。 假 设 在 2015 年 ， 传 输 64 位 的 数据 ， 寄 存 器 比 
DRAM 快 200 倍 (分别 是 0.25ns 和 50ns)， 节 能 10 000 税 (分 别 是 0.1pJ 和 1000pJ)。 这 种 
巨大 的 差异 催生 了 cache，cache 能 够 减少 访问 存储 器 的 性 能 和 能 耗损 失 ( 见 第 5 章 )。 
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2.3.2 ”常数 或 立即 数 操作 数 


程序 中 经 常会 在 某 个 操作 中 使 用 到 常数 ， 例 如 ， 将 数组 的 索引 递增 ， 以 指向 下 一 个 数组 
元 素 。 实 际 上 ， 在 运行 SPEC CPU 2006 测试 基准 程序 集 时 ， 有 超过 一 半 的 LEGv8 算术 运算 
指令 会 用 到 常数 作为 操作 数 。 

如 果 仅 使 用 目前 已 介绍 过 的 指令 ,使 用 常数 时 则 必须 先 将 其 从 存储 器 中 取出 (常数 可 能 
是 在 程序 被 加 载 进 主 存 时 放 人 存储 器 的 )。 例 如 ， 要 使 寄存 器 X22 加 4， 可 以 使 用 以 下 代码 : 


LDUR X9，[X20，AddrConstant4] 11/ X9 = constant 4 
ADD X22,X22,X9 1 Wes we + NE 9 5 


假设 X20+Addrconstant4 是 常量 4 在 存储 器 中 的 地 址 。 

避免 使 用 load 指令 的 另 一 方法 是 ， 增 加 一 种 算术 运算 指令 ， 并 令 其 中 一 个 操作 数 是 常 
数 。 这 种 一 个 操作 数 是 常数 的 快速 加 法 指令 称 为 立即 数 加 (add immediate)， 或 写成 ADDI。 
因此 ， 上 述 操作 可 写成 : 

ADDI X22 ,X22 ,#4 I/ X22 = X22 + 4 

常数 操作 数 出 现 频率 很 高 ， 而 且 相 对 于 从 存储 器 中 取 常 数 ， 包 含 常数 的 算术 运算 指令 执 
行 速度 更 快 ， 并 且 能 耗 更 低 。 

常数 0 还 有 另外 的 作用 ， 即 通过 提供 有 用 的 变量 简化 指令 集 。 例 如 ， 数 据 移动 指令 MOV 
等 价 于 一 个 常数 操作 数 为 0 的 加 法 。 因 此 ，LEGv8 将 寄存 器 XZR (寄存 器 编号 为 31 ) 通过 
硬件 连 线 恒 秸 为 0。 根 据 使 用 频率 来 论证 在 指令 集中 增加 包含 常数 的 指令 ， 是 二 旺 浅 焙 率 事 
靳 思想 的 另 一 个 典型 例子 。 

了 睛 研 虽然 本 书 中 介绍 的 LEGv8 寄存 器 都 是 64 位 的 ， 但 是 完整 的 ARMv8 指令 集 有 两 种 执 
行 状态 : AArch32 下 寄存 器 为 32 位 宽 ( 见 2.19 节 )，AArch64 下 寄存 器 为 64 位 宽 。 第 一 种 状态 支 
持 A32 和 T32 指令 集 ， 第 二 种 状态 支持 A64 指令 集 。 本 章 采 用 A64 的 子 集 构成 LEGV8 指令 集 。 

抽 同 LEGv8 中 偏 移 量 加 基 址 寄存 器 的 寻 址 方式 非常 适合 数组 这 种 数据 结构 ， 因 为 基 址 
寄存 器 可 指向 数组 的 起 始 地 址 ， 而 偏 移 量 可 用 于 选择 所 需 的 元 素 。2.13 节 中 提供 了 这 样 的 例子 。 

陆 研 数据 传输 指令 中 的 寄存 器 最 初 用 来 存放 数组 的 索引 ， 而 偏 移 量 用 来 指明 数组 的 起 
始 地 址 。 因 此 ， 基 址 寄存 器 也 叫 作 索引 寄存 器 (index register)。 现 在 ， 存 储 器 容量 大 大 增加 ， 
数据 分 配 的 软件 模型 也 更 为 复杂 ， 所 以 数组 的 基 址 现在 通常 放 在 寄存 器 中 ， 因 为 篇 移 量 的 位 
宽 可 能 已 经 不 适合 存放 ( 较 大 的 ) 基 址 了 。 后 续 将 对 此 进行 介绍 。 

随 髓 | 从 32 位 地 址 计算 机 到 64 位 地 址 计算 机 的 转变 ,使 得 编译 器 设计 者 需要 选择 C 语 
言 中 不 同 数据 类 型 的 大 小 。 很 显然 ， 指 针 应 该 是 64 位 ， 但 是 整数 呢 ? 除 此 之 外 ，C 语言 的 
数据 类 型 还 有 整 型 ( int)、 长 整 型 ( Long int) 和 双 长 整 型 (long long int)。 对 于 不 
完全 兼容 的 C 代码 ， 从 一 种 数据 类 型 转换 为 另 一 种 数据 类 型 可 能 导致 不 可 预测 的 溢出 ， 这 会 
产生 严重 的 问题 。 不 幸 的 是 ， 这 种 情况 并 不 少见 。 下 表 给 出 了 两 种 较为 流行 的 解决 方案 : 








Microsoft Windows 64 位 32 位 _32 位 64 位 
Linux 和 大 部 分 Unix 64 位 32 位 64 位 64 位 

尽管 每 个 编译 器 都 有 多 种 选择 ， 但 一 般 而 言 ， 同 一 种 操作 系统 上 的 编译 器 选择 相同 的 解 
决 方案 。 为 简化 起 见 ， 本 书 假设 所 有 指针 都 是 64 位 ， 并 定义 C 寄存 器 都 是 双 长 整 型 ， 以 便 
与 指针 的 大 小 保持 一 致 。 本 书 也 遵循 C99 标准 ， 将 索引 数组 的 变量 声明 为 size_t， 这 保证 
了 该 变量 能 与 数组 的 大 小 匹配 。 案 引 值 的 声明 一 般 和 长 整 型 相同 。 
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| 旺 解 在 完整 的 ARMv8 指令 集中 ，31 号 寄存 器 在 绝 大 多 数 指令 中 表示 XZR， 而 在 其 他 
指令 中 表示 栈 指 针 SP， 这 容易 造成 歧义 。 因 此 LEGv8 中 31 号 寄存 器 总 是 与 XZR 一 致 ， 而 
栈 指针 SP 是 28 号 寄存 器 。 另 外， 这 种 歧义 不 仅 会 令 用 户 混淆 ， 还 会 增加 数据 通路 (第 4 章 介 
绍 ) 设计 的 复杂 性 。 

畏 解 | 完整 的 ARMv8 指令 集 没有 采用 助 记 符 ADDI 表示 立即 数 加 ， 而 是 和 普通 加 法 一 
样 用 RDD 表示 ， 由 汇编 器 负责 选择 正确 的 操作 码 。 用 相同 的 助 记 符 表示 不 同 的 操作 可 能 会 
引起 混淆 ， 因 此 为 了 便于 教学 ，LEGv8 中 用 不 同 的 助 记 符 对 这 两 种 加 法 进行 区 分 。 








2.4 有 符号 数 和 无 符号 数 


首先 我 们 快速 回顾 一 下 计算 机 是 如 何 表示 数 的 。 人 们 日 常 习惯 使 用 以 10 为 基 的 数 ， 但 
数 的 基 可 以 是 任意 的 。 例 如 ， 以 10 为 基 的 数 123 等 于 以 2 为 基 的 数 1111011。 
在 计算 机 硬件 中 ， 数 是 以 一 串 为 高 或 为 低 的 电信 号 来 体现 的 ， 因 此 可 以 被 认为 是 基 为 2 
的 数 (与 基 为 10 的 数 称 为 十 进 制 数 一 样 ， 基 为 2 的 数 称 为 二 进 制 数 )。 
因为 所 有 信息 都 由 二 进 制 位 (binary digit) 或 位 (bit) 组 成 ， 所 ”| 二 进 制 位 ， 二 进 制 状态 之 
以 计算 机 运算 的 “原子 ”( 基 本 单位 ) 是 位 。 位 的 值 可 以 是 两 种 状态 | 一 ， 印 0 或 1， 是 信息 的 
之 一 : 高 或 低 ， 开 或 关 ， 真 或 假 ，1 或 0。 竺 本 并 并 
推广 到 任意 进 制 数 ， 其 第 i 位 a 的 值 为 
dx 基 ' 
这 里 , i 是 从 0 开始 并 且 从 右 向 左 递增 的 。 显 而 易 见 ， 计 算 一 个 数 各 位 数值 的 方法 是 计算 该 
位 对 应 的 基 的 短 次 方 。 为 便于 区 分 , 我们 在 十 进 制 数 的 右 下 角 写 上 ten ( 10 )， 在 二 进 制 数 的 
右 下角 写 上 two ( 2 )。 例 如 ， 
lei 
表示 
业 训 区 
(lx8) + (0x4) + (1 x2) +(x 1 
8 | 玉 . 1 家 于， 下 
E> 
在 一 个 4 位 的 双 字 中 ,我们 从 右 向 左 标 记 各 位 为 0，1，2，3…… 下 面 的 图 片 显示 了 LEGv8 
的 一 个 双 字 中 每 一 位 的 编号 和 数字 101lw。 的 放置 情况 ( 因 页 面 大 小 限制 ， 该 双 字 分 两 部 分 显示 ); 2 


63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 


ter 
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31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 
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《64 位 宽 ， 分 两 行 32 位 显示 ) 





日 原 书 中 第 35 ~ 32 位 为 “1011"， 应 为 笔 误 ， 正 确 的 为 “0000”。 一 一 译 者 注 
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由 于 双 字 可 以 水 平 书写 ， 也 可 以 垂直 书写 ， 用 最 左边 或 最 右边 ee LEGv8 双 字 
表述 并 不 清晰 。 因 此 用 术语 最 低 有 效 位 ( least significant bit) 表示 | 中 最 右边 的 一 位 
最 右边 的 一 位 (上 例 中 的 第 0 位 )， 最 高 有 效 位 ( most significant bit) 
表示 最 左边 的 一 位 (上 例 中 的 第 63 位 )。 

LEGv8 的 双 字 有 64 位 ， 可 以 表示 2 个 不 同 的 64 位 模式 ， 可 
表示 从 0 到 2%4-1 ( 18 446 774 073 709 551 61S$u) 之 间 的 数 : 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000,.、= 0 


00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001,. ~ 1。 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010,,, ~ 2,。 


最 高 有 效 位 : LEGv8 双 字 
中 最 左边 的 一 位 


llllll11 11111111 11111111 11111111 11111111 11111111 11111111 11111101。= 18 446 774 073 709 551 613,。 
11111111 11111111 11111111 11111111 111l11111 111lllll 11111111 11111110 = 18 446 744 073 709 551 614,w 
11111111 1111111 11111111 11111111 11111111 11111111 1LI11111 I1111111,.. = 18 446 744 073 709 551 615,。 

任意 64 位 的 二 进 制 数字 都 可 以 表示 成 每 位 的 值 乘 以 该 位 对 应 的 2 的 蹇 次 的 形式 (这 里 

表示 数字 x 的 第 i 位 ); 

(te3 X25) + (xzezX26) + (rorX25) + + (x X21!) + xox2°) 
这 些 正 数 被 称 为 无 符号 数 ， 原 因 稍 后 解释 。 

天 ;二 进 制 对 人 类 来 说 不 是 自然 的 计数 方法 ， 我 们 有 十 根 手指 ， 所 以 采用 
十 进 制 数 是 非常 自然 的 。 为 什么 计算 机 不 使 用 十 进 制 呢 ? 事实 上 ， 第 一 台 商 用 计算 机 的 确 提 
供 了 十 进 制 人 算术 运 算 。 但 问题 在 于 计算 机 仍然 采用 开关 信号 ， 所 以 一 个 十 迁 制 数位 村 由 几 个 
二 进 制 数位 来 表示 。 事 实证 明 ， 十 进 制 效率 很 低 ， 所 以 后 来 的 计算 机 都 转向 了 二 进 制 ， 只 有 
在 频率 相对 较 低 的 1/O 事件 中 才 将 数据 转换 成 十 进 制 。 

需要 注意 的 是 ， 以 上 二 进 制 数 只 是 数 的 简单 表示 。 实 际 上 ， 数 是 由 无 穷 多 的 位 组 成 
的 ， 除 了 最 右边 的 少数 位 以 外 其 余 大 部 分 都 是 0， 而 前 面 (左边 ) 的 0 只 是 没有 表示 出 来 
而 已 。 硬 件 可 以 对 这 些 二 进 制 数 进行 加 、 减 、 乘 、 除 操作 。 如 果 操 作 结果 不 能 被 最 右 端的 硬 
件 位 表示 ， 那 么 就 发 生 了 溢出 。 如 何 处 理 溢 出 由 编程 语言 、 操 作 系统 和 程序 来 决定 。 

计算 机 程序 对 正 数 和 负数 都 要 进行 计算 ， 所 以 需要 一 种 表示 方法 来 区 分 正 数 和 负数 。 最 
显而易见 的 解决 方案 是 增加 一 个 独立 的 符号 位 ， 这 种 表示 方法 称 为 符号 和 幅 值 表示 法 。8 

符号 和 幅 值 表示 法 有 若干 缺点 。 首 先 ， 符号 位 放 在 哪里 不 够 明确 。 放 右边 还 是 放 左边 ? 
早期 的 计算 机 对 两 种 方法 都 做 了 尝试 。 其 次 ， 对 于 符号 和 幅 值 表示 的 数 进行 计算 需要 额外 的 
步骤 来 设置 符号 ， 因 为 计算 结果 不 可 能 提前 知道 。 最 后 ， 一 个 单独 的 符号 位 意味 着 在 符号 和 
幅 值 表 示 的 数 中 不 但 有 正 零 而 且 还 有 负 零 ， 这 将 给 粗心 的 程序 员 带 来 麻烦 。 这 些 缺点 导致 这 
种 表示 方法 很 快 就 被 抛弃 了 - 

在 研究 其 他 方案 时 产生 了 这 样 一 个 问题 ， 当 我 们 试图 用 一 个 较 小 的 数 减 去 一 个 较 大 的 数 
时 ， 无 符号 数 表示 方法 的 结果 会 是 什么 ? 答案 是 较 小 的 数字 将 会 从 前 面 的 0 中 借 位 ， 因 此 结 
果 中 前 面 的 位 都 变 成 了 一 串 1。 

在 没有 其 他 明显 更 好 选择 的 情况 下 ， 最 终 的 解决 方案 是 选择 一 种 易于 硬件 实现 的 表示 方 
法 : 前 导 位 为 0 表示 正 数 , 前 导 位 为 1 表示 负数 。 这 种 表示 有 符号 二 进 制 数 的 方法 称 为 二 进 
制 补 码 。 例 如 : 





名 即 原 码 表示 法 。 一 一 译 者 注 
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00000000 00000000 00000000 00000000 00000000 00000000 00000000,. ~ 
00000000 00000000 00000000 00000000 00000000 00000000 00000001,,, = 
00000000 00000000 00000000 00000000 00000000 00000000 00000010,, = 


O01111111 11113111 1111117 lllllill 11111111 11111111 3111111] 11111101,。 ~ 9 223 372 036 854 775 805,,, 
oillllll 11111111 11111111 lll11111 11111111 11111111 11111111 11111110,, ~ 9 223 372 036 854 775 806,., 
O11 11111111 11111111 11111111 11111111 11111111 11111111 11111111,, = 9 223 372 036 854 775 807,。 
10000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000., = - 9 223 372 036 854 775 808,,, 
10000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001,., = - 9 223 372 036 854 775 807,., 
10000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010,,, ~ — 9 223 372 036 854 775 806,。 


L1111111 11111111 11111111 11111111 11111111 11111111 1111111] 11111101,。~ 
11111111 11111111 11111111 11111111 11111111 11111111 11171111 11111110,, 
UN 01 11111111 M11 1111111 M1 11111111 11111111,。 


其 中 一 半 的 正 数 ， 从 0 到 9 223 372 036 854 775 807e (22 - 1 ), 表示 方式 与 前 面相 同 。 
紧 接着 的 1000...0000w。 表示 最 小 的 负数 -9 223 372 036 854 775 808 ( - 29 )。 后 面 是 按 绝 对 
值 递 减 的 负数 : 从 - 9 223 372 036 854 775 807'en ( 1000...0000wo) 到 一 1 (1111..111lwo)。 

二 进 制 补 码 中 的 最 小 负数 - 9 223 372 036 854 775 808ies 没有 相应 的 正 数 与 之 对 应 。 这 
种 不 平衡 同样 也 会 为 粗心 的 程序 员 带 来 烦恼 。 但 相 比 之 下 ， 符 号 和 幅 值 方法 对 程序 员 以 及 硬 
件 设计 人 员 都 会 造成 困扰 。 因 此 ， 现 在 计算 机 都 采用 二 进 制 补 码 来 表示 有 符号 数 。 

采用 二 进 制 补 码 方法 的 优点 在 于 所 有 负数 的 最 高 有 效 位 都 是 1。 硬 件 只 需 检 测 这 一 位 就 
能 判断 一 个 数 是 正 数 还 是 负数 (为 0 表示 正 数 )。 这 个 位 通常 叫 作 符号 位 。 在 理解 了 符号 位 
的 作用 之 后 ， 就 可 以 使 用 位 值 乘 以 2 的 寡 次 的 方式 来 表示 64 位 的 正 数 和 负数 : 

(xe3X— 25)+ (zeaXx292) + (xer X25) + + (x x2')+ (xox 2°) 


符号 位 与 - 2” 相 乘 ， 其 余 的 位 仍 按 前 面 的 方法 计算 。 


| 例题 | 二 进 制 转换 为 十 进 制 -。 
求 以 下 64 位 二 进 制 补 码 表示 对 应 的 十 进 制 数 。 


11111111 11111111 11111111 11111111 11111111 11111111 11111111 11111100,., 


| 答案 | 将 数 的 位 值 代 入 上 面 的 公式 ， 
(1xX—-2%)+(1X2®)+(1X2)+.+(1X2!)+(0x2")+(0x2°) 
=-26+22+26+.…+22+0+0 
= 一 9223 372 036 854 775 808en + 9 223 372 036 854 775 804ien = — dien 

后 面 我 们 会 给 出 从 负数 转换 为 正 数 的 捷径 。 - 


对 二 进 制 补 码 表示 的 数 进行 操作 ， 就 像 对 无 符号 数 进行 操作 一 样 ， 结 果 可 能 超过 硬件 能 
表示 的 范围 而 产生 溢出 。 溢 出 发 生 在 二 进 制 数 最 左边 的 符号 位 与 采用 无 穷 多 位 表示 该 数 时 左 
ey (符号 位 不 正确 ): 该 数 为 负 时 符号 位 是 0， 或 该 数 为 正 时 符号 位 是 1。 
和 算术 运算 一 样 ， 有 符号 数 和 无 符号 数 对 load 指令 也 有 影响 。 有 符号 数 
( 数 本 身 可 能 没有 64 位 ) 取出 后 需要 使 用 符号 位 填充 寄存 器 左 侧 的 所 有 剩余 位 ， 称 为 符号 扩展 
(sign extension)， 但 其 目的 是 在 寄存 器 中 放 入 数字 正确 的 表示 方式 。 无 符号 数 取 出 后 ， 因 为 此 时 
表示 的 是 无 符号 数 ， 故 只 需 用 0 来 填充 寄存 器 左 侧 的 剩余 位 ， 称 为 零 扩 展 (zero extension)。 




















| 
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当 把 64 位 的 双 字 加 载 到 64 位 的 寄存 器 中 时 ， 则 没有 上 述 区 别 ， 此 时 无 符号 数 和 有 符 
号 数 的 加 载 是 一 样 的 5。ARMv8 提供 了 两 种 字 节 加 载 指令 : 一 种 是 LDURB (load byte)， 将 字 
节 看 作 无 符号 数 ， 使 用 零 扩 展 来 填充 寄存 器 的 左 侧 位 ; 另 一 种 是 针对 有 符号 整数 的 LDURSB 
(load byte signed)。 由 于 C 程序 几乎 都 是 使 用 字 节 来 表示 字符 ， 而 不 是 用 来 表示 有 符号 短 整 
数 ， 所 以 实际 中 几乎 所 有 字 节 加 载 都 使 用 LDURB。 

锯 本 加 要 模 国 与 上 面 所 讨论 的 有 符号 数 不 同 ， 存 储 器 地 址 从 0 开始 递增 到 最 大 地 
址 ， 此 时 负 地 址 是 没有 意义 的 。 因 此 ， 程 序 有 时 需要 处 理 正 数 和 负数 ， 有 时 仅 需 要 处 理 正 
数 。 一 些 编程 语言 反映 了 这 个 区 别 。 例 如 ,C 语言 将 前 者 叫 作 整 数 (integer， 程 序 中 声明 
为 long long int)， 而 后 者 叫 作 无 符号 整数 (程序 中 声明 为 unsigned long long 
int)。 一 些 C 编程 风格 的 指导 书 甚至 推荐 将 前 者 声明 为 signed long long int， 以 使 
区 别 更 加 明显 。 

下 面 介 绍 两 种 处 理 二 进 制 补 码 数 的 简单 方法 。 第 一 种 方法 对 二 进 制 补 码 数 快速 求 负数 。 
将 每 一 位 取 反 ,0 变 1，1 变 0， 然 后 结果 加 1。 这 种 方法 的 原理 是 ， 一 个 数 和 它 按 位 取 反 的 
结果 相 加 ， 和 是 111...111wo， 即 - 1。 因 为 x+ 元 =- 1， 所 以 有 x+Ez+l=0 或 +l1=-xo (我 
们 使 用 表示 将 x 的 每 位 取 反 。) 


| 例题 | 求 负数 的 补 码 
对 2m 求 补 ， 然 后 对 -2 求 补 ， 并 观察 结果 。 
| 答案 | 





2 = 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010,,, 


将 该 数 按 位 取 反 再 加 1 
11111111 11111111 11111111 11111111 11111111 11111111 11111111 11111101,,, 





+ lw 
= 11111111 11111111 11111111 11111111 11111111 11111111 11111111 11111110， 
要 BL 
另 一 方面 , 将 
11111111 11111111 11111111 11111111 11111111 11111111 11111111 11111110,, 
按 位 取 反 再 加 1 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001，。 
十 和 


avo 





= 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010,,, 


= 2 


第 二 种 方法 用 于 将 一 个 位 的 二 进 制 数 更 多 的 位 来 表示 。 该 方法 将 原 数 的 最 高 有 效 位 
(符号 位 ) 复制 以 填 满 新 数 ， 而 非 符号 位 部 分 简单 复制 到 新 数 的 右边 部 分 。 这 种 方法 通常 称 为 
符号 扩展 (sign extend) 。 





日 位 宽 一 致 ， 不 需要 扩展 。 一 一 译 者 注 
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| 例题 | 符号 扩展 





将 16 位 二 进 制 表 示 的 2e 和 - 2ue 转换 为 64 位 二 进 制 数 。 
| 答案 | 2 的 16 位 二 进 制 表示 形式 是 
00000000 00000010, = 2， 


将 最 高 有 效 位 (0 ) 复制 48 次 放 到 64 位 字 的 左 半 部 ， 而 右 半 部 分 保持 原 16 位 的 值 : 


00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010,,, = 2 


使 用 前 面 介绍 的 方法 对 2 的 16 位 二 进 制 表 示 求 负数 。 故 


0000 0000 0000 0010,。 


变 成 


11111111 1111 1101,, 
二 Ly 


= 1111111111111110,, 


再 将 该 结果 符号 位 复制 48 次 放 到 64 位 字 的 左 半 部 分 ， 右边 部 分 保持 不 变 ， 则 有 : 


11111111 11111111 11111111 11111111 11111111 11111111 11111111 11111110,,, = -2,., 





-ee 


这 种 方法 之 所 以 正确 ， 是 因为 二 进 制 补 码 表示 的 正 数 实际 上 左 侧 有 无 限 多 个 0， 而 负数 
有 无 限 多 个 1。 只 是 为 了 适应 硬件 的 宽度 ， 二 进 制 表示 的 数 的 前 导 位 被 隐藏 了 ， 符 号 扩展 只 


是 简单 地 恢复 了 其 中 一 部 分 。 
小 结 


本 节 的 重点 是 如 何在 计算 机 中 表示 正 整 数 和 负 整 数 。 虽 然 任何 表示 方法 都 有 利 瞪 ,但 自 


1965 年 以 来 ， 二 进 制 补 码 表示 成 为 计算 机 的 一 致 选择 。 


| 汝 网 有 符号 十 进 制 数 没有 长 度 的 限制 ， 所 以 可 用 “ -” 来 表示 负数 。 而 对 于 一 个 给 定 


长 度 的 二 进 制 或 十 六 进 制 数 ( 见 图 2-4 )， 符 号 可 以 编码 到 位 串 中 。 
因此 ， 二 进 制 和 十 六 进 制 中 通常 不 使 用 “+” 和 “-” 来 表示 正 负 。 

请 稻 ; 二 进 制 补 码 得 名 于 下 述 规则 : 一 个 位 的 数 与 其 n 位 的 
相反 数 做 无 符号 加 法 ， 结 果 是 2"， 因 此 ,x 的 相反 数 或 相 补 数 -x 等 
于 2"-x， 或 叫 “ 二 进 制 补 码 ”。 

除了 “二 进 制 补 码 ” 和 “符号 和 幅 值 ”( 即 原 码 ) 这 两 种 表示 法 
以 外 ， 第 三 种 可 选 的 表示 法 是 1 的 补 码 (one's complement) s。 在 反 
码 表示 中 ， 一 个 数 的 相反 数 就 是 将 这 个 数 的 每 一 位 按 位 取 反 ，0 变 
成 1，1 变 成 0。 反 码 中 交 的 相反 数 是 2"-x- 1. 反 玛 也 由 此 得 名 。 
与 符号 和 幅 值 表示 法 相 比 ， 反 码 在 某 些 方面 是 一 个 更 好 的 解决 方案 ， 
因此 一 些 早期 用 于 科学 计算 的 计算 机 采用 这 种 表示 法 。 反 码 与 补 码 
类 似 ， 但 是 有 两 个 零 ， 正 0 为 00...00wo， 负 0 为 11...1lwoo。 绝对 值 
最 大 的 负数 ( 即 最 小 的 负数 ) 是 10...000w。， 表 示 -2 147 483 647ico， 
所 以 反 码 中 正 数 和 负数 的 个 数 是 对 等 的 。 采 用 反 码 时 ， 加 法 器 需要 


日 、 即 反 码 - 一 一 译 者 注 


反 码 : 使 用 10.000wo 表 
示 最 小 负数 ，01...1ltwo 表 
示 最 大 正 数 ， 正 教 和 负 教 
的 个 数 相 同 ， 但 有 两 个 零 ， 
一 个 正 零 (00.00wo)， 
一 个 负 零 (11..11we)。 该 
术语 也 表示 按 位 求 反 ， 即 
0 于 为 1，1 年 为 0。 


移 码 : 最 小 的 负数 用 00... 
000wo 表示 ， 最 大 的 正 数 
用 11...1lwo 表示, 0 一 般 
用 10..00mwo 表 示 ， 即 通 
过 将 教 加 一 个 偏 移 使 其 具 
有 非 负 的 表示 形式 。 








80 




















和 2 





一 个 额外 的 步骤 ， 即 减 去 一 个 数 来 修正 结果 。 因 此 ， 现 在 计算 机 中 还 是 补 码 占 主导 地 位 。 

第 3 章 将 介绍 一 种 浮 点 数 的 表示 法 。 其 中 ， 最 小 的 负数 用 00...000wo 表示 ， 最 大 的 正 数 
用 11...11wo 表示 ，0 一 般 用 10...00two 表示 。 因 为 该 方法 通过 将 数 加 一 个 偏 移 使 其 具有 非 负 的 
表示 形式 ， 所 以 称 为 移 码 表示 (biased notation)。 








2.5 计算 机 中 指令 的 表示 
人 命令 计算 机 的 方式 与 计算 机 看 待 指令 的 方式 是 不 同 的 ， 本 节 解 释 其 中 的 差别 。 
指令 在 计算 机 内 部 是 以 一 系列 或 高 或 低 的 电信 号 表示 的 ， 形 式 上 和 数 的 表示 相同 。 实 际 
上 ， 指 令 的 各 部 分 都 可 看 成 一 个 独立 的 数 ， 将 这 些 数 拼接 在 一 起 就 形成 了 指令 。LEGv8 中 的 
32 个 寄存 器 用 编号 0 一 31 表示 。 





| 例题 | 将 LEGv8 汇编 语言 指令 翻译 成 机 器 指令 
下 面 以 LEGv8 汇编 语言 为 例 。 对 于 符号 表示 的 LEGv8 指令 
ADD X9 ,X20 ,X21 

首先 表示 为 十 进 制 数 的 组 合 ， 然 后 表示 为 二 进 制 数 的 组 合 。 

| 答案 | 其 十 进 制 表示 为 : 





[| 1412 21 | 0 I 20 9 














指令 分 为 若干 字段 (field)。 第 一 个 字段 (本 例 中 包含 1112 的 字段 ) 告诉 LEGv8 计 
算 机 该 指令 要 执行 加 法 运算 。 第 二 个 字段 指明 加 法 操作 中 第 二 个 源 操 中 数 的 寄存 器 纺 
号 ( 即 X21 的 编号 21 )， 第 四 个 字段 指出 男 一 个 源 操 作 数 的 寄存 器 编号 (X20 的 20 )。 第 
五 个 字段 表示 存放 运算 结果 的 目的 寄存 器 编号 (X9 的 9 )。 第 三 个 字段 在 这 条 指令 中 没有 
用 到 ， 故 置 为 0。 这 条 指令 将 寄存 器 X20 和 寄存 器 X21 的 内 容 相 加 ， 并 将 和 放 在 寄存 器 
X9 中 。 

这 条 指令 中 的 各 个 字段 也 可 以 表示 成 二 进 制 的 形式 : 








10001011000 | 10101 000000 10100 | 01001 
11 位 5 位 6 位 5 位 5 位 

















指令 的 布局 形式 叫 作 指 令 格 式 ( instruction format)。 从 二 进 制 | 指令 格式 : 二 进 制 数 字段 
位 的 数目 可 以 看 出 ，LEGv8 指令 占 32 位 ， 即 一 个 字 或 半 个 双 字 。 遵 ”| 组 成 的 指令 表示 形式 。 
循 简单 源 于 规整 的 原则 ， 所 有 LEGv8 指令 都 是 32 位 长 。 
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为 了 与 汇编 语言 区 分 开 ， 指 令 的 数字 形式 称 为 机 器 语言 (machine | 机 器 语言 : 计算 机 系统 中 
language)， 这 样 的 指令 序列 称 为 机 器 码 。 用 于 交流 的 二 进 制 表示 
为 避免 读 写 元 长 乏味 的 二 进 制 数 串 ， 通 常 可 采用 上 比 二 进 制 基数 | *。 
更 大 , 但 又 易 转 化 为 二 进 制 的 表示 方法 。 由 于 计算 机 中 几乎 所 有 的 
数据 大 小 都 是 4 的 倍数 ， 因 此 十 六 进 制 ( hexadecimal) 的 使 用 非常 | 十 六 进 制 : 基教 为 16 的 数 。 
普遍 。16 是 2 的 4 次 寡 ， 因 此 每 4 位 二 进 制 可 替换 为 1 位 十 六 进 制 ， 
反之 亦 然 。 图 2-4 给 出 了 十 六 进 制 和 二 进 制 之 间 的 转化 表 。 





二 进 制 


Ohex | 0000two | 4nhex 0100two | Bhex | 1000wo Chex 1100wo 









































| 1hex | oootwo Shex 0101two || Shex | 100lwo| dhex 1101two 
| 2hex 0010wo 6hex 0110wo ahex | 1010wo Ehex 1110wo 
| me ol i om) ee ome es [di 











图 2-4 十 六 进 制 和 二 进 制 转换 表 。1 位 十 六 进 制 数 可 替换 为 相应 的 4 位 二 进 制 数 ， 反 之 亦 然 。 
如 果 二 进 制 数 的 位 数 不 是 4 的 整数 倍 ， 转 化 要 从 右 往 左 进行 


为 了 避免 使 用 不 同 进 制 数 时 产生 混淆 ， 通 常 将 十 进 制 数 加 下 标 ten， 二 进 制 数 加 下 标 
two， 十 六 进 制 数 加 下 标 hex。 如 果 没 有 下 标 ， 默 认为 十 进 制 。 顺 便 说 明 ，C 和 Java 中 用 符 
号 0xnnnn 来 表示 十 六 进 制 数 。 


| 例题 | 二 进 制 和 十 六 进 制 间 的 转换 。 
将 下 面 的 十 六 进 制 数 转 化 成 二 进 制 数 ， 二 进 制 数 转化 成 十 六 进 制 数 ， 


eca8 6420。 
0001 0011 0101 0111 1001 1011 1101 1111,., 


| 答案 | 按 图 2-4 所 示 ， 通 过 十 六 进 制 - 二 进 制 转换 表 查 表 得 : 
eca8 6420,., 





1110 1100 1010 1000 0110 0100 0010 0000,,, 


从 二 进 制 到 十 六 进 制 的 转换 : 
00Q1 0011 0101 0111 1001 1011 J101 Jill 


Bg 


为 了 便于 讨论 , 将 LEGv8 指令 中 各 字段 命名 如 下 : 

















[_opcode Rm shamt | Rn | Rd 


11 位 5 位 6 位 5 位 5 位 
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LEGv8 指令 中 各 字段 名 称 及 含义 如 下 : 操作 码 : 指令 中 用 来 表示 

e opcode: 操作 码 ， 指 明 指令 完成 的 基本 操作 。 操作 类 型 和 格式 的 字段。 

。 Rm: 第 二 个 源 操作 数 寄 存 器 。 

。 shamt : 位 移 量 。( 2.6 节 中 介绍 移 位 指令 和 相关 术语 ， 在 此 之 前 的 指令 都 不 使 用 这 个 

字段 ， 故 本 节 中 此 字段 的 内 容 为 0。) 

。 Rn: 第 一 个 源 操作 数 寄 存 器 。 

。 Rd: 目的 操作 数 寄存 器 ， 存 放 操作 结果 。 

当 某 条 指令 需要 的 字段 多 于 上 述 字段 时 ， 就 会 产生 问题 。 例 如 ，load register ( 取 寄 存 器 ) 
指令 必须 指定 两 个 寄存 器 和 一 个 常数 。 在 上 述 格式 中 ， 如 果 地 址 使 用 其 中 的 一 个 5 位 字段 ， 
那么 load register 指令 最 大 的 常数 就 被 限制 在 2 - 1 ( 即 31 )。 这 个 常数 通常 用 来 从 数组 或 数 
据 结构 中 选择 元 素 ， 所 以 常常 比 31 大 得 多 。 因 此 ，5 位 字段 太 小 ， 难 以 发 挥 作 用 。 

因此 ， 一 方面 人 们 总 是 希望 所 有 指令 长 度 相同 ， 另 一 方面 又 希望 只 有 单一 的 指令 格式 。 
这 种 冲突 引发 了 最 后 一 条 硬件 设计 原则 。 

设计 原则 3: 优秀 的 设计 需要 好 的 权衡 和 折 中 。 

LEGv8 选择 的 折 中 方案 是 保持 所 有 的 指令 长 度 相同 ， 但 不 同类 型 的 指令 采用 不 同 的 指令 
格式 。 例 如 ， 上 述 格式 称 为 R 型 (用 于 寄存 器 )。 另 一 种 指令 格式 称 为 D 型 ， 由 数据 传输 指 
令 (load 和 store) 使 用 。D 型 指令 格式 的 字段 如 下 所 示 : 

[opcode | address | op2 | Re | 
11 位 9 位 2 位 5 位 5 位 

9 位 的 地 址 字段 意味 着 load register 指令 可 以 访问 寄存 器 Rn 所 指 基 址 前 后 + 2* 或 256 
个 字 节 ( +25 或 者 32 个 双 字 ) 范围 内 的 任意 双 字 。 这 种 格式 下 ， 很 难 使 用 32 个 以 上 的 寄存 
器 ， 因 为 Rn 和 Rt 字 段 都 必须 增加 额外 的 位 。 指 令 长 度 有 限 ， 我 们 没 法 把 所 有 的 东西 都 塞 在 
一 个 字 里 。(D 型 指令 的 最 后 一 个 字段 叫 作 Rt 而 不 是 Rd， 因 为 对 于 存储 指令 ， 该 字段 指明 的 
是 源 数据 而 不 是 目的 数据 。) 

对 于 2.3.1 节 例 子 中 的 load register 指令 : 

LDUR X9, [X22,#64] // Temporary reg X9 gets A[8] 

22 (寄存 器 X22) 存放 在 Rn 字段 ，64 存放 在 address 字段 ，9 (寄存 器 X9) 存放 在 Rt 字段 。 
注意 ,该 指令 中 Rt 字段 代表 目的 操作 数 寄 存 器 ， 用 于 存放 从 存储 器 中 取 到 的 数 。 

立即 数 指令 如 ADDI 和 SUBI 等 也 需要 相应 的 指令 格式 。 尽 管 D 型 指令 中 的 9 位 字段 可 
以 用 来 存放 常量 ,但 是 ARMv8 的 设计 者 认为 应 该 提供 更 大 的 字段 存放 立即 数 ， 甚 至 将 操作 
码 字段 减少 一 位 以 构成 12 位 的 立即 数 。 立 即 数 指令 或 1 型 指令 格式 如 下 所 示 : 











opcode 人 immediate Rn Rd | 
10 位 12 位 5 位 5 位 

虽然 多 种 指令 格式 增加 了 硬件 的 复杂 性 ， 但 是 保持 指令 格式 的 相似 性 在 一 定 程度 上 可 以 
降低 复杂 度 。 例 如 ， 三 种 指令 格式 的 最 后 两 个 字段 长 度 相同 、 名 称 相似 、 前 两 种 指令 格式 的 
操作 码 字段 长 度 相同 。 

三 种 指令 格式 由 第 一 个 字段 的 值 来 区 分 : 每 种 格式 的 第 一 个 字段 ( opcode) 都 赋 给 不 
同 的 值 ， 以 便 让 计算 机 硬件 知道 如 何 处 理 指令 的 剩余 部 分 。 图 2-5 给 出 了 目前 已 介绍 过 的 
LEGv8 指令 中 每 个 字段 的 值 。 
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指令 











ADD (add) 0 n.a. na, reg 
SUB (subtract) | 1624en 0 | na | na reg 
ADDI (add immediate) | 58o。 





SUBI (sub immediate) na. | constant | na. 
LDUR (load word) | 


STUR (store word) 


na, 





alalalala 目 








n.a. | address 0 n.a. 


1986en 

1984o | reg | na |address | 0 

图 2-5 LEGv8 指令 编码 。 在 上 表 中 ,“reg” 表 示 寄 存 器 的 编号 (0 一 31) “address” 
表示 9 位 地 址 或 12 位 常数 ,“n.a.”(notapplicable) 表示 这 个 字段 在 该 指令 格式 
中 不 出 现 。“op2” 是 操作 码 字段 的 扩展 


| 例题 | 将 LEGv8 汇编 语言 翻译 成 机 器 语言 四 
本 例 描述 从 程序 员 编写 的 代码 到 机 器 执行 的 指令 的 整个 转换 过 程 。X10 存放 数组 A 的 基 
址 ，h 存放 在 X21 中 ， 下 面 的 C 赋值 语句 
A[30] = h + A[30] + 1; 


R 
R 
1 
I 
D 
D 


reg 

Treg 
na. | constant | na. | reg | na. 

reg 

reg 

reg 





na, 
































被 编译 成 如 下 汇编 语言 : 
LDUR Xx9, [X10,#240] // Temporary reg X9 gets A[30] 
ADD X9,X21,Xx9 // Temporary reg X9 gets h+A[30] 
ADDI X9,X9,#1 1/ Temporary reg X9 gets h+A[30]+1 


STUR xX9, [X10,#240] // Stores h+A[30]+1 back into A[30] 
那么 这 四 条 LEGv8 指令 的 机 崔 代 码 是 什么 
| 答案 | 首先 用 十 进 制 数 表示 机 器 语言 指令 。 根 据 图 2-5 可 得 : 














Wi i 9 
1112 21 9 
580 9 | 9 | 
1984 -| | 











LDUR 指令 第 一 个 字段 ( opcode) 的 值 为 1986 ( 见 图 2-5 )。 在 第 四 个 字段 (Rn) 中 指定 
基 址 寄存 器 10， 目 的 寄存 器 9 在 最 后 一 个 字段 ( Rt) 中。 第 二 个 字段 address 中 存放 用 于 指 
定 AL30] 的 偏 移 量 (240=30x8)。 

下 一 条 ADD 指令 由 第 一 个 字段 (opcode) 1112 定义 。 三 个 寄存 器 操作 数 9、21、9 分 别 
在 第 二 、 四 、 五 字段 中 。 第 三 字段 (shamt) 值 为 0。 

ADDI 指令 第 一 个 字段 (opcode) 的 值 是 580。 第 二 个 字段 存放 立即 数 1。 最 后 两 个 字段 
存放 寄存 器 操作 数 ( 均 为 9 )。 

STUR 指令 由 第 一 个 字段 1984 识别 。 这 条 指令 的 其 余部 分 和 LDUR 指令 一 样 。 

















240ien 二 0 1111 0000w。， 因 此 与 十 进 制 形式 对 应 的 二 进 制 机 器 指令 如 下 所 示 : 
| 11111000010 | 011110000 00 | 01010 01001 
| 10001011000 01001 000000 | 10101 01001 
| 1001000100 000000000001 01001 01001 
11111000000 oll10000 | 00 01010 01001 




















注意 ， 第 一 条 指令 和 最 后 一 条 指令 的 二 进 制 表示 非常 相似 ， 仅 从 左边 数 第 10 位 不 同 。 一 一 = 
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风骨 ARMv8 的 汇编 程序 员 一 般 直接 使 用 ADD 而 不 是 ADDI 表示 立即 数 加 ， 由 汇编 器 
根据 操作 数 的 类 型 (全 部 是 寄存 器 ， 即 R 型 指令 ; 或 有 一 个 是 常数 ， 即 1 型 指令 ) 生成 正确 
的 操作 码 和 指令 格式 。 本 书 介绍 汇编 语言 和 机 器 语言 时 ， 为 了 避免 不 必要 的 混淆 ， 在 LEGv8 
中 采用 不 同 的 指令 和 名称 表示 不 同 的 操作 码 和 指令 格式 。 

畏 三 注意 ， 与 MIPS 指令 集 不 同 ， 在 LEGv8 中 工 型 指令 的 立即 数字 段 是 0 扩展 的 。 因 
此 ，LEGv8 同时 包括 了 RDDI 和 SUBI 指令 。 而 MIPS 只 有 ADDI 指令 ， 且 其 指令 的 立即 数 
可 以 是 正 数 或 负数 。 

| 酌 大 天 标 接 闻 | 指令 长 度 保持 相同 的 需求 与 提供 尽 可 能 多 的 寄存 器 的 需求 是 相互 矛盾 
的 。 寄 存 器 数量 的 增长 会 导致 指令 格式 中 各 个 寄存 器 字段 至 少 增加 1 位 。 综 合 考虑 这 些 限制 
和 越 少 越 快 的 设计 原则 ， 当 今 大 多 数 指令 系统 中 都 只 有 16 个 或 32 个 通用 寄存 器 。 

图 2-6 归纳 了 本 节 所 描述 的 LEGv8 机 器 语言 。 第 4 章 将 阐述 ， 相 关 指 令 采 用 相似 的 二 
进 制 表示 可 以 简化 硬件 设计 。 这 种 相似 性 也 是 LEGv8 体系 结构 规整 性 的 又 一 佐证 。 










































































LEGv8 
ES 
ADD R da42 | 3 0 2 1 ADD X1, X2, X3 

| sue_ R | 1624 | 3 0 2 | WB Ms i a 
ADDI 1 580 100 2 1 | ADDI Xx1, x2, #100 
SUBI 1 836 | 100 2 1 SUBI X1, X2, #100 
LDUR D |1986 | 100 2 1 LDUR_X1，[X2， 太 00] 
STUR D | 1984 100 四 2 1 STUR X1, [Xx2, #100] 
字段 的 位 数 11 或 10 位 5 位 5 或 4 位 | 2 位 | 5 位 5 位 | 所 有 ARM 指 令 长 度 都 是 32 位 
R 型 R opcode | Rm | shamt Rn Rd 算术 运算 指令 格式 
再 1 opcode | immediate Rn Rd 立即 数 指令 格式 
D 型 D opcode | address op2 Rn Rt 数据 传输 指令 格式 
图 2-6 2.5 节 展示 的 LEGv8 体系 结构 。 目 前 为 止 介绍 了 R 型 、D 型 和 1 型 三 种 LEGv8 指令 。 最 后 





10 位 包括 Rn 字段 ， 给 出 一 个 源 操作 数 ; Rd 或 者 Rt 字段 指出 目的 寄存 器 (存储 指令 中 用 于 指 
明 要 存储 的 数据 )。R 型 指令 将 剩余 部 分 划分 为 三 个 字段 : 11 位 的 操作 码 字段 ; 5 位 的 Rm 字 
段 ， 指 明 另 一 个 操作 数 ; 6 位 的 shamt 字段 ， 将 在 2.6 节 中 介绍 。I 型 指令 将 12 位 组 合 为 一 个 
immediate 字段 ， 此 时 操作 码 字 段 减少 一 位 ( 变 为 10 位 )。 和 只 型 指令 一 样 ，D 型 指令 采用 11 
位 的 操作 码 (opcode) 字段 ， 还 包括 9 位 的 address 字段 和 2 位 的 op2 字段 。op2 字段 是 操作 码 
字段 的 逻辑 扩展 


睛 汪 当今 计算 机 基于 以 下 两 个 关键 准则 构建 ; 

日 指令 用 数 的 形式 表示 。 

e 程序 和 数据 一 样 ， 存 储 在 存储 器 中 进行 读 写 。 

这 两 个 准则 引发 了 存储 程序 原理 的 诞生 ， 从 而 使 计算 机 发 挥 了 巨大 的 潜力 。 图 2-7 显示 
了 存储 程序 的 强大 功能 。 存 储 器 中 既 可 以 存放 编辑 器 程序 的 源 代码 ， 也 可 以 存放 相应 的 编译 
后 的 机 器 码 、 编 译 后 的 程序 需要 使 用 的 文本 ， 甚 至 生成 机 器 码 的 编译 器 。 

指令 以 数 的 形式 表示 的 一 个 好 处 是 ， 程 序 可 以 被 当成 二 进 制 数 的 文件 发 布 。 其 商业 意义 
在 于 计算 机 可 以 延 用 那些 指令 集 兼容 的 现成 软件 。 这 种 “二 进 制 兼容 ”使 得 工业 界 围绕 着 几 
种 指令 集体 系 结构 形成 联盟 。 

贡生 为 什么 图 2-1 给 出 的 指令 数 有 限 ， 而 LEGv8 指令 的 操作 码 字段 却 非常 大 ? 主要 
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原因 是 完整 的 ARMv8 指令 集 非常 大 ， 有 大 约 1000 条 指令 。 本 章 最 后 几 节 ， 以 及 第 3 章 和 
第 5 章 都 将 对 完整 的 ARMv8 指令 集 进行 相关 分 析 。 


3 记 账 程序 ( 机 器 码 ) 


图 2-7 存储 程序 原理 。 各 类 存储 的 程序 使 得 一 台 几 于 记 账 
的 计算 机 转眼 间 就 可 变 成 一 台 可 以 帮助 作者 写 书 的 
计算 机 。 这 种 切换 只 需 将 程序 和 数据 加 载 到 存储 器 
中 并 告诉 计算 机 从 给 定 的 存储 器 地 址 开始 执行 程序 
即 可 。 将 指令 和 数据 以 相同 的 方式 处 理 ， 极 大 地 简 
化 了 计算 机 系统 的 存储 器 硬件 和 软件 。 用 于 数据 的 
存储 技术 同样 也 适用 于 程序 ， 如 编译 器 ， 能 够 将 那 
些 用 易于 人 类 使 用 的 符号 编写 的 代码 翻译 成 机 器 能 
理解 的 代码 











2.6 ”逻辑 操作 “ 正 相反 ,” 叮 当 弟 接着 说 ， 
“如 果 那 是 真 的 ， 那 它 就 
虽然 早期 的 计算 机 仅 对 整 字 进 行 操作 ， 但 人 们 很 快 就 发 现 ， 对 | 可 能 是 真 的 ; 如 果敢 曾经 
字 中 由 若干 位 组 成 的 字段 甚至 对 单个 位 进行 操作 是 很 有 用 的 。 例 如 ， | 是 页 的 ， 它 训 是 真 过 ; 但 
检查 一 个 字 中 每 个 8 位 的 字符 ( 见 2.9 节 )。 于 是 ,编程 语言 和 指令 | 是 哆 然 现在 它 不 是 真 的 ， 
Won je 那么 现在 它 就 是 假 的 。 这 
集体 系 结构 中 增加 了 一 些 指令 ， 用 于 简化 对 字 中 若干 位 进行 打包 或 “| 让 是 到 得 
者 拆 包 的 操作 。 这 些 指 令 被 称 为 逻辑 操作 。 图 2-8 给 出 了 C、Java | iewis Camol, Alices 


和 LEGv8 中 的 逻辑 操作 。 Adventures in Wonderland, 1865 











< LSL 
>> >>> LSR_ 
8 & AND ,ANDI 
| = OR,ORI 

按 位 取 反 芝 EOR, EORI 


图 2-8 C 和 Java 的 逻辑 操作 及 相应 的 LEGv8 指令 。 实 现 NOT ( 取 反 ) 操作 的 一 种 方 
式 是 与 全 1 数 (FFFF FFFF FFFF FFFFhex) 做 异 或 操作 
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第 一 类 逻辑 操作 称 为 移 位 〈shift)， 将 一 个 双 字 的 所 有 位 都 向 左 或 向 右 移动 ， 并 在 空 出 的 
位 上 填充 0。 例如， 假设 寄存 器 X19 中 的 数据 是 : 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00001001,,,. = 9 


一 条 左 移 4 位 的 指令 执行 后 ， 得 到 的 新 值 是 : 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 10010000,,, = 144,。 


与 左 移 相 对 应 的 是 右 移 。 左 移 和 右 移 这 两 条 指令 在 LEGv8 中 的 确切 名 字 是 逻辑 左 移 
LSL (logical shift left) 和 还 辑 右 移 LSR ( logical shift right)。 下 面 的 指令 完成 左 移 操 作 ， 假 
设 源 操作 数 在 X19 中 ， 结 果 存 储 到 X11 中 : 

LSL X11,X19,#4 // reg X11l = reg X19“《 4 bits 


前 面 介绍 R 型 指令 格式 时 没有 解释 shamt 字段 ， 在 移 位 指令 中 该 字段 用 于 表示 移 位 量 
(shift amount)。 因 此 ， 上 述 指令 对 应 的 机 器 语言 是 : 


opcode Rm _Shamt Rn Rd 


1691 0 | rd | 


LSL 对 应 的 opcode 字段 为 1691，Rd 为 11，Rn 为 19，shamt 为 4，Rm 字段 没有 使 用 ， 
被 置 为 0。 

他 辑 左 移 还 有 额外 的 作用 。 左 移 位 相当 于 乘 以 2， 就 像 十 进 制 数 左 移 i 位 相当 于 乘 以 
10。 例如， 上面 的 LSL 指令 左 移 了 4 位 ， 相 当 于 乘 以 2 或 16。 所 以 ， 例 子 中 原 二 进 制 数 表 
示 的 值 是 9， 而 9 x 16=144， 恰 好 就 是 移 位 后 的 结果 。 

第 二 个 有 用 的 退 辑 操作 是 按 位 与 (AND)。 一 般 使 用 大 写 ， 以 便 | 按 们 与; 接 位 地 村 操作， 
与 普通 的 英文 单词 区 分 。AND 是 按 位 操作 ， 丙 个 操作 位 均 为 1 时 结 | 站 要 下 证 全 的 鸭 
果 才 为 1。 例如 ,寄存 器 X11 为: 

00000000 00000000 00000000 00000000 00000000 00000000 00001101 11000000 


ten 




















two 


寄存 器 X10 为 : 

00000000 00000000 00000000 00000000 00000000 00000000 00111100 00000000,,, 
执行 以 下 LEGv8 指令 : 

AND XxX9,X10,X11 // reg X9 = reg X10 & reg X11 
则 x9 中 的 值 是 : 


00000000 00000000 00000000 00000000 00000000 00000000 00001100 00000000,,, 


AND 提供 了 一 种 将 二 进 制 数 中 的 某 些 位 置 为 0 的 途径 ， 即 只 需 | 按 位 或 按 位 到 辑 操作 ， 
将 另 一 个 二 进 制 数 中 的 对 应 位 置 为 设 0。 与 AND 结合 使 用 的 二 进 制 。 | 当 两 个 操作 位 中 的 任意 一 
数 称 为 扼 码 (mask)， 即 “隐藏 ” 某 些 位 。 asl 

与 AND 相对 的 操作 是 按 位 或 ( ORR)， 当 两 个 操作 位 中 的 任意 一 
位 为 1 时 结果 为 1。 假 设 X10 和 X11 中 的 值 都 和 上 面 的 例子 一 样 ， 那 么 下 述 LEGv8 指令 

ORR X9,X10,X11 // reg X9 = reg X10 | reg X11 


执行 后 X9 的 值 是 
00000000 00000000 00000000 00000000 00000000 00000000 00111101 11000000,。 


和 指令 : 计算 机 的 食 言 。 他 





最 后 一 种 逻辑 操作 是 按 位 取 反 (NOT)。 该 操作 仅 有 一 个 操作 数 ， 
将 1 变 成 0，0 变 成 1， 可 用 来 计算 元 

为 了 保持 三 操作 数 的 格式 ，ARMv8 的 设计 者 引入 异 或 (EOR) 
指令 来 取代 NOT。 在 异 或 操作 中 ， 若 两 个 操作 数 相同 ， 结 果 为 0 ; 
若 不 同 ， 结 果 为 1。 因 此， 取 反 操作 NOT 等 价 于 和 全 1 数 (111… 


按 位 取 反 : 按 位 远 辑 操作 ， 
仅 有 一 个 操作 数 ， 将 1 变 
成 0，0 变 成 1。 





异 或 : 按 位 逻辑 操作 ， 仅 





当 两 个 操作 数 不 同 时 结果 
111 ) 做 EOR 操作 。 才 为 1 

假设 寄存 器 x10 的 值 与 上 例 相同 ， 寄 存 器 X12 中 的 值 是 0， 那 
么 下 面 的 LEGv8 指令 


EOR X9,X10,X12 // reg X9 = reg X10 | reg X12 


执行 后 ， 寄 存 器 X9 中 的 结果 是 : 
00000000 00000000 00000000 00000000 00000000 00000000 00110001 11000000,,。 


图 2-8 显示 了 C 和 Java 的 操作 符 与 LEGv8 指令 之 问 的 关系 。 和 算术 运算 一 样 ， 罗 辑 操 
作 中 常数 也 非常 有 用 。 因 此 LEGv8 也 提供 了 立即 数 与 (ANDI)、 立 即 数 或 (ORRT)， 以 及 立 
即 数 异 或 (EORI) 指令 。 

辆 鲫 iC 语言 允许 在 双 字 内 定义 由 若干 位 组 成 的 一 个 或 多 个 字段 ， 并 将 其 作为 对 象 包装 在 一 
个 字 内 ， 以 便 匹 配 IO 设备 等 的 外 部 接口 的 需要 。 所 有 字段 必须 放 在 一 个 双 字 之 中 ， 字 段 是 无 符 
号 整数 ， 最 少 为 1 位 。C 编译 器 使 用 LEGv8 的 雇 辑 指令 (AND、ORR、LSL、LSR) 插入 和 提取 字段 。 

网 | 完整 的 ARMv8 指令 集中 ，ANDI、ORRI 和 EORI 的 立即 数字 段 并 不 是 简单 的 12 
位 立即 数 。 和 ARMv7 相似 (ARMv7 采用 复杂 的 方式 对 立即 数 进行 编码 )，ARMv8 采用 重复 模 
式 编码 立即 数 。 这 意味 着 一 些 较 小 的 常数 (如 1、2、3、4 和 和 6) 有效, 而 其 他 的 (如 -1、0 和 5) 
不 一 定 有 效 。 而 LEGv8 中 ， 只 是 简单 地 采用 12 位 立即 数 ， 类 似 ADDI 中 。 这 种 差异 意味 着 指 
令 EORI Xl,X1l,#5 在 LEGv8 中 是 合法 的 ， 但 是 在 ARMv8 中 不 合法 。 此 外 ， 对 立即 数 编码 
在 其 他 指令 集中 也 不 常见 ， 且 这 种 编码 方式 还 会 显著 增加 数据 通路 ( 见 第 4 章 ) 的 复杂 度 。 

也 与 大 多 数 计算 机 体系 结构 不 同 ，ARMv8 和 ARMv7 允许 算术 运算 或 座 辑 指令 中 包 
含 寄存 器 移 位 操作 : 和 任意 移 位 宕 存 器 相 加 ， 和 任意 移 位 寄存 器 相 减 ， 和 任意 移 位 寄存 器 相 
与 ， 等 等 。 这 种 组 合 在 其 他 的 计算 机 体系 结构 中 不 常见 ， 也 很 少 在 编译 器 中 生成 ,并且 支持 
这 种 组 合 操 作 将 大 大 增加 数据 通路 的 复杂 度 ( 也 会 使 数据 通路 与 一 般 处 理 器 的 数据 通路 有 很 大 
差异 )。 因 此 ， 本 书 中 将 移 位 操作 当 作 独立 的 指令 处 理 ， 这 和 其 他 体系 结构 的 处 理 方式 类 似 。 
尽管 可 以 通过 与 XZR 寄存 器 做 ADD 或 OR 操作 实现 移 位 操作 ， 但 是 用 与 RDD 或 OR 同样 的 
操作 码 表示 移 位 操作 仍然 会 引起 湿 浠 。 因 此 ， 本 书 遵循 ARMv8 的 做 法 ， 采 用 UBFM (Unsigned 
BitField Move， 无 符号 位 移 ) 指令 和 相应 操作 码 表示 移 位 操作 。 本 书 中 将 Rm 字段 和 shamt 字 
段 的 值 分 别 简化 成 0 和 实际 的 移 位 量 ， 看 上 去 与 ARMv8 汇编 语言 类 似 。 在 UBFM 指令 中 ， 用 
于 逻辑 左 移 (LSL) 的 Rm 和 shamt 字段 值 是 (- 位 移 量 对 64 取 模 ) 和 (63- 位 移 量 ); 用 于 进 
辑 右 移 的 Rm 和 shamt 字段 值 是 位 移 量 和 63。ARMv8 指令 中 ， 操 作 码 字段 包含 部 分 立即 数字 
段 ， 因 此 本 书 用 操作 码 1691 和 1690 分 别 表示 LSL 和 LSR 指令 ， 以 便 进行 区 分 。 
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2.7 决策 指令 

计算 机 与 简单 计算 器 的 区 别 在 于 决策 能 力 。 根 据 输 入 的 数据 和 
计算 过 程 中 产生 的 值 ， 计 算 机 可 以 执行 不 同 的 指令 。 程 序 语言 中 通 
常 使 用 主语 句 描述 决策 ， 有 时 也 和 go to 语句 以 及 标签 (lable) 组 合 
使 用 。LEGv8 汇编 语言 中 有 两 条 决策 指令 ， 和 让 以 及 go to 语句 类 
似 。 第 一 条 是 : 

CBZ register, L1 
该 指令 表示 : 如 果 register 的 数值 为 0， 则 转 到 标签 为 L1 的 
语句 执行 。 助 记 符 CB2Z 表示 比较 为 0 分 支 (compare and branch 让 
Zero)。 

第 二 条 指令 是 

CBNZ register, L1 
该 指令 表示 : 如 果 register 的 数值 不 为 0， 则 转 到 标签 为 1 的 语 
句 执行 。 助 记 符 CBN2 表示 比较 不 为 0 分 支 (compare and branch if 
not zero)。 这 两 条 指令 传统 上 称 为 条 件 分 支 (conditional branch) 指令 。 


| 例题 | 将 if-then-else 语句 编译 成 条 件 分 支 指令 





自动 化 计算 机 的 实用 性 取 
决 于 重复 使 用 给 定 指令 序 
列 的 可 能 性 ， 重 复 的 次 教 
取决 于 计算 的 结果 …… 这 
一 选择 可 以 根据 教 的 符号 
来 决定 (计算 机 认为 0 是 
正教 )。 因此， 我 们 引入 一 
条 “ 指 邻 ”( 条 件 转 移 “ 指 
令 " )， 它 根据 给 定数 的 符 
号 从 两 条 路 径 中 选择 正确 
的 一 条 来 执行 。 

Burks, Goldstine, and von 
Neumann, 1947 


条 件 分 支 ; 该 指令 对 某 
个 值 进行 比较 ， 然 后 根 
据 比较 的 结果 决定 是 否 转 
到 程序 中 革 个 新 的 地 址 处 
执行 。 





在 下 面 这 段 代码 中 , f、g、h、 i、 


j 都 是 变量 ， 假 设 这 五 个 变量 依次 对 应 于 五 个 寄存 


器 X19 到 X23。 请 写 出 这 条 C 语言 编写 的 让 语句 编 详 后 形成 的 LEGv8 代 仙 。 


1f (i == j) f=g+h; elsef=9g=-h; 


| 答案 | 图 2-9 给 出 了 LEGv8 代码 执行 过 程 的 流程 图 。 第 一 个 表达 式 用 于 比较 寄存 器 中 的 两 





个 变量 是 否 相等 。 前 面 介绍 的 条 件 分 支 指令 只 能 判断 一 个 寄存 器 的 值 是 否 为 0， 因此 第 一 步 
要 将 i 和 j 相 减 ， 检 查 结果 是 否 为 0。 接 下 来 要 做 的 似乎 是 如 果 结 果 为 0， 则 进行 分 支 ( 程 
序 跳 转 )， 即 使 用 cB2 指令。 通常 ， 通 过 测试 分 支 的 相反 条 件 来 跳 过 比较 不 相等 要 执行 的 代 
码 ， 这 样 的 代码 效率 会 更 高 。 故 这 里 使 用 CBNZ 指令 。 以 下 是 相应 的 两 条 指令 ， 寄 存 器 X9 
存放 主 减 j 的 差 值 : 


SUB X9,X22,X23 // X9 =1i-j 
CBNZ xX9, Else // go to Else if i *j (X9 * 0) 











Exit: | 
图 2-9 上 述 让 语句 的 操作 流程 图 。 左 边 方 框 对 应 让 语句 的 then 部 分 ， 右 边 方 框 对 应 else 部 分 
下 一 个 赋值 语句 只 执行 一 个 操作 ， 如 果 所 有 的 操作 数 都 分 配给 寄存 器 ， 则 只 需 一 条 指令 : 


篆 余 : 计划 胡 的 语言 。 65 





ADD X19,X20,X21 /I/Ff=9g+h (skipped if i * j) 


在 站 语句 的 结尾 部 分 ,需要 引信 另 一 种 分 支 指令 ， 通 常 叫 作 无 条 件 分 支 (Unconditional branch) 
指令 ?5。 当 遇 到 这 种 指令 时 ， 处 理 器 必须 跳 转 。 为 了 区 分 条 件 分 支 和 无 条 件 分 支 ,LEGv8 将 无 
条 件 分 支 指令 命名 为 branch， 简 写成 B (标签 Exit 将 在 后 面 定义 ) 。 

B Exit /1 go to Exit 
证 语句 中 else 部 分 的 赋值 语句 也 可 以 编译 为 一 条 指令 。 我 们 只 需 将 标签 Else 加 在 这 条 指令 
前 。 指 令 后 面 加 入 标签 Bxit ， 表 示 if-then-else 编译 代码 结束 : 


Else:SUB X19 ,X20 ,X21 t/f=9g 一 ht(skipped if i = j) 
ExT 





值得 注意 的 是 ， 汇 编 器 将 编译 器 和 汇编 语言 程序 员 从 分 支 地 址 计算 以 及 load/store 访 存 
di (参见 2.12 节 )。5 

编译 器 经 常会 创建 一 些 在 编程 语言 中 没 出 现 过 的 分 支 和 标签 。 避 免 编 写 
这 此 显 式 的 标 给 和 分 支 是 使 用 高 级 编 和 语言 的 好 处 之 一 ， 也 是 该 层次 上 编码 速度 快 的 一 个 原因 。 


2.7.1 循环 


无 论 是 在 二 选 一 的 让 语句 中 ， 还 是 在 迭代 计算 的 循环 语句 中 ， 决 策 都 起 着 重要 作用 。 但 
在 这 两 种 情况 下 ， 用 于 实现 决策 的 汇编 语言 指令 是 相同 的 。 


| 例题 | 编译 C 语言 中 的 while 循环 
下 面 是 用 C 语言 编写 的 一 个 传统 循环 程序 : 


while (Save[i] -== k) 
ry 


假设 i 和 k 存 放 在 寄存 器 X22 和 X24 中 ,数组 save 的 基 址 存放 在 寄存 器 X25 中 。 请 写 出 
这 段 C 程序 对 应 的 LEGv8 汇编 代码 。 
| 答案 | 第 一 步 将 save [i] 读 入 一 个 临时 寄存 器 中 。 读 和 之前， 首先 要 计算 save [i] 的 地 
址 。 在 将 i 加 到 save 数组 基 址 以 形成 访 存 地 址 前 ， 由 于 LEGv8 按 字 节 编 址 的 缘故 ， 先 要 
将 工 乘 以 8。 幸 运 的 是 ， 我 们 可 以 使 用 逻辑 左 移 指令 实现 乘法 ， 央 为 左 移 3 位 等 价 于 乘 8。 
我 们 在 该 左 移 指令 前 增加 一 个 标签 Loop ， 以 便 在 循环 未 尾 能 够 跳 回 该 指令 。 

Loop: LSL X10,X22,#3 // Temp reg X10=i*8 
为 计算 save [i] 的 地 址 ， 需 要 将 X10 和 X25 中 save 的 基 址 相 加 ; 

ADD X10,X10,X25 // X10 = address of save[i] 
现在 根据 新 地 址 将 save [i] 读 入 临时 寄存 器 中 : 

LDUR xX9, [X10,#0] // Temp reg X9 = save[i] 
下 一 条 指令 将 save [i] 和 k 相 减 ， 差 值 存 人 X11 中 用 于 测试 循环 。 如 果 X11 不 为 0， 表 明 
save [il] 和 k 不 相等 。 











日 通常 也 称 作 跳 转 指令 。 一 一 译 者 注 
名 ”程序 员 使 用 标签 表明 转移 地 址 ， 而 实际 地 址 的 计算 由 编译 器 和 汇编 器 生成 的 指令 完成 ， 因 而 程序 员 无 需 
计算 转移 地 址 或 地 址 偏 移 量 - 一 一 译 者 注 
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SUB X11,X9,X24 14 X11 = Save[T] — 
下 一 条 指令 执行 循环 判断 ， 如 果 save [i] #k 则 退出 循环 : 
CBNZ X11, Exit // go to Exit if save[i] # k(Xll #* 0) 
青 下 一 条 指令 将 二 加 1: 
ADDI X22,X22,#1 = 
在 循环 的 末尾 ， 指 令 跳 转 到 循环 开始 处 的 while 测试 。 随 后 增加 一 个 Exit 标签 ， 编 译 完成 : 
B Loop // go to Loop 


Exit: 
( 见 练习 题 中 对 该 指令 序列 的 优化 。) 站 


BN 以 分 支 指令 作为 结束 的 指令 序列 对 编译 非常 | 基本 块 ， 没有 分 支 (可 能 
重要 ， 因 此 有 专门 的 术语 描述 。 基本 块 。 基 本 块 (basic block) 是 | 出 现在 末尾 者 除外 ) 并 且 
分 支 指令 只 可 能 出 现在 末尾 ， 分 支 目 标 /分 支 标签 只 可 能 出 现在 | 没有 分 支 目标 /分 支 标签 
开始 的 指令 序列 。 编 译 最 初 阶段 的 任务 之 一 就 是 将 程序 分 解 为 基 | 下 加 在 开始 者 哈 外 ) 
本 块 。 

相等 或 不 等 是 最 常见 的 判断 ， 但 两 数 之 间 还 有 其 他 很 多 关系 存在 。 例 如 ，for 循环 需要 
判断 索引 变量 是 否 小 于 0。 其 他 比较 操作 还 包括 小 于 (<)、 小 于 等 于 (<)、 大 于 (>)、 大 于 等 
于 (>)、 等 于 (=) 和 不 等 于 (#)。 

比较 位 串 的 大 小 也 必须 区 分 有 符号 数 和 无 符号 数 这 肉 种 情况 。 有 符号 数 中 ， 最 高 位 为 1 
的 位 串 表 示 负 数 ， 比 任何 一 个 最 高 位 为 0 的 正 数 都 小 。 而 对 于 无 符号 数 ， 最 高 位 为 1 的 数 比 
任何 最 高 位 为 0 的 数 都 大 。( 最 高 位 的 双重 含义 可 以 用 来 减少 数组 边界 检查 的 开销 。) 

体系 结构 设计 师 很 早 之 前 就 通过 增加 四 个 额外 的 二 进 制 位 来 记录 指令 执行 状态 信息 ， 从 
而 解决 上 述 问题 。 这 些 额 外 增加 的 位 称 为 条 件 码 (condition code) 或 标志 位 (flag): 

e 负数 标志 位 (N): 若 结果 最 高 位 为 1， 则 设置 该 条 件 码 。 

。 零 标志 位 (Z): 车 结果 为 0， 则 设置 该 条 件 码 。 

日 溢出 标志 位 (V)， 若 结果 溢出 ， 则 设置 该 条 件 码 。 

。 进位 标志 位 (C); 车 结果 向 最 高 位 进位 或 从 最 高 位 借 位 ， 则 设置 该 条 件 码 。 

条 件 分 支 指令 通过 组 合 使 用 这 些 条 件 码 完成 条 件 判 断 。 在 LEGv8 指令 集中 ， 这 种 条 件 
分 支 指令 是 B.cond。cond 可 以 用 于 任意 有 符号 数 的 比较 指令 中 ， 如 EQ (等 于 )、NE (不 
等 于 )、LT (小 于 )、LE (小 于 等 于 )、GT (大 于 ) 或 GE (大 于 等 于 )。cond 也 可 以 用 于 无 符 
号 数 的 比较 指令 ， 如 LO ( 低 于 )、LS ( 低 于 或 相同 )、HI (高 于 ) 或 者 HS (高 于 或 相同 )。 假 
设 设 置 条 件 码 的 指令 是 减法 指令 (A-B)， 则 图 2-10 给 出 了 LEGv8 所 有 有 符号 数 比 较 和 无 符 
号 数 比较 操作 对 应 的 指令 和 条 件 码 的 值 。 

除了 图 2-10 给 出 的 10 条 条 件 分 支 指令 外 ，LEGv8 还 包括 4 条 检测 单一 条 件 码 的 分 支 
指令 : 

e 结果 为 负 跳 转 (B.MI): N=1- 

e 结果 为 正 跳 转 (B.PL): N=0- 

。 溢出 位 有 效 跳 转 (B.VS): V=1。 

。 溢出 位 清 零 跳 转 (B .VC): V=0- 
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= B,NE z=0 B.NE z=0 
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入 | BT (Z=0& N=V) B.HI (Z=0 & C=1) 
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图 2-10 假设 设置 条 件 码 的 指令 是 减法 指令 ， 如 何 实现 比较 操作 。 如 果 是 ADD 或 者 AND 指令 ， 
条 件 码 检测 只 需 基于 指令 结果 和 0 的 比较 。 对 于 AND 指令 ，C 和 V 一 般 总 是 设 为 08 


代替 设置 条 件 码 的 一 种 解决 方案 是 用 指令 比较 两 个 寄存 器 数 的 大 小 ， 然 后 根据 比较 结果 
进行 分 支 操作 。 第 二 种 选择 是 比较 两 个 寄存 器 数 的 值 ， 然 后 用 第 三 个 寄存 器 记录 比较 是 否 成 
功 ， 再 然后 由 后 续 的 条 件 分 支 指令 检测 第 三 个 寄存 器 的 值 是 否 为 0 (条 件 为 假 ) 或 不 为 0 (条 
件 为 真 )。MIPS 中 的 条 件 分 支 指令 采用 后 一 种 方案 ( 见 2.16 节 )。 

条 件 码 的 一 个 缺点 是 ， 如 果 许 多 指令 频繁 设置 条 件 码 ， 就 可 能 造成 依赖 性 问题 ， 使 得 
指令 很 难 流水 执行 ( 见 第 4 章 )。 因 此 ，LEGv8 规定 只 有 少数 指令 一 一 ADD、ADDI、AND、 
ANDI、SUB 和 SUBI 一 一 能 设置 条 件 码 ， 并 且 条 件 码 的 设置 是 可 选择 的 。 在 LEGv8 汇编 
语言 中 ， 如 果 想 设置 条 件 码 ， 只 需要 在 相应 指令 的 尾部 追加 S， 如 ADDS、ADDIS、ANDS、 
ANDIS、SUBS 和 SUBIS。 指 令 名 称 中 实际 上 使 用 了 术语 “ flag”"， 因 此 ADDS 的 正确 解释 
应 该 是 “add and set flags”， 即 加 并 设置 标志 位 。 


2.7.2 边界 检查 的 简便 方法 


将 有 符号 数 作为 无 符号 数 来 处 理 *， 是 一 种 检验 0 < x <y 的 开销 较 低 的 方法 ， 并 与 数组 索 
引 的 边界 检查 〈 是 否 越界 ) 匹配 。 问 题 的 关键 在 于 ， 负 数 的 二 进 制 补 码 表示 看 起 来 像 是 一 个 
很 大 的 无 符号 数 表示 。 因 为 最 高 有 效 位 在 有 符号 数 中 是 符号 位 ， 而 在 无 符号 数 中 是 具有 最 大 
权重 的 位 。 所 以 以 无 符号 数 比 较 x*<y， 可 以 在 检查 x 是否 小 于 » 的 同时 ,检查 x 是 否 为 负数 。 


| 例题 | 。 
用 以 下 方法 检查 索引 是 否 越界 : 如 果 X20 = x11 或 X20 是 负数 ， 则 跳 转 到 IndexOut- 
OfBounds 处 。 
| 答案 | 只 需 使 用 一 条 无 符号 数 大 于 或 等 于 指令 即 可 以 完成 两 种 检查 : 
SUBS XZR,X20,X11 // Test if X20 >= length or X20 < 0 
B.HS IndexOut0OfBounds //if bad, goto Error 








2.7.3 ”case/switch 语句 


大 多 数 编程 语言 中 都 包括 case 或 switch 语句， 允许 程序 员 根 据 某 个 值 做 出 不 同 的 选择 。 
实现 switch 语句 的 最 简单 方法 是 借助 一 系列 的 条 件 判断 ， 将 switch 语句 转化 为 一 组 if-then- 
else 语句 。 


日 若 x > 成 立 ， 做 减法 应 该 没有 借 位 。 一 一 译 者 注 
加 ”计算 机 采用 二 进 制 补 码 ， 符 号 位 参与 运算 .因此 计算 机 本 身 是 不 区 分 有 符号 数 和 无 符号 数 的 - 一 一 译 者 注 
加 为 何 可 以 判断 X20 是 负数 呢 ? XZR 寄存 器 始终 为 0。 因此 只 能 影响 标志 位 ， 不 能 影响 结果 。 一 一 译 者 注 
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有 了 时候 男 一 种 更 有 效 的 方法 是 将 多 个 指令 序列 的 地 址 编码 为 一 .| 分 支 地 址 表 ， 又 称 作 分 支 
张 表 ， 即 分 支 地 址 表 (branch address table) 或 分 支 表 (branch table)。 | 表 ， 指 包含 不 同 指 邻 序列 
程序 只 需 索 引 该 表 即 可 跳 转 到 正确 的 指令 序列 。 分 支 地 址 表 是 一 个 “| 地 址 的 表 。 

由 代码 中 标签 所 对 应 地 址 构成 的 双 字 数组 - 进行 分 支 时 ， 程 序 首先 

将 分 支 地 址 表 中 相应 的 入口 地 址 加 载 到 寄存 器 中 ， 然 后 使 用 寄存 器 中 的 地 址 值 进行 跳 转 。 为 
了 支持 这 种 情况 ， 像 LEGv8 这 样 的 计算 机 提供 了 寄存 器 分 支 指令 BR ( branch register)， 表 明 
无 条 件 跳 转 到 寄存 器 指定 的 地 址 。 下 一 节 将 介绍 该 指令 的 一 种 更 常见 用 法 。 

虽然 在 C 或 Java 这样 的 编程 语言 中 有 许多 语句 可 用 于 决策 和 循环 ， 
但 是 在 指令 集 这 一 层次 实现 其 功能 的 基本 语句 是 条 件 分 支 。 














2.8 计算 机 硬件 对 过 程 的 支持 


过 程 ( procedure) 或 函数 是 程序 员 进 行 结构 化 编程 的 工具 ， 两 “| 过 程 ， 根 据 提供 的 参数 完 
者 均 有 助 于 提高 程序 的 可 理解 性 和 代码 的 可 重用 性 。 过 程 允许 程序 ”| 成 一 定 任务 的 子 程序 。 
员 每 次 只 需 将 精力 集中 在 任务 的 某 一 部 分 ; 参数 用 于 传递 数值 并 返 
可 结果 ， 是 过 程 与 程序 其 他 部 分 以 及 数据 之 间 的 接口 。2.15 节 描 述 了 Java 语言 中 和 过 程 等 价 
的 表示 方法 ， 虽 然 表示 方法 不 同 ， 但 Java 与 C 语言 对 计算 机 的 要 求 是 一 致 的 。 过 程 是 软件 
中 实现 洱 瘟 的 一 种 途径 。 

你 可 以 将 过 程 想象 成 一 个 间谍 ， 带 着 一 个 神秘 的 计划 离开 ， 获 取 资 源 、 执 行 任务 、 隐 藏 
行踪， 最 后 带 着 需要 的 结果 返回 起 点 。 一 旦 任务 完成 就 不 再 对 系统 产生 任何 干扰 。 此 外 ， 间 
谍 仅 仅 在 其 “需要 知道 ”的 基础 上 工作 ， 不 能 对 其 上 线 做 任何 假定 。 

在 过 程 执行 时 ， 程 序 必须 遵循 以 下 6 个 步骤 : 

1. 将 参数 放 到 过 程 可 以 访问 的 地 方 。 

2. 将 执行 的 控制 权 转 交 给 过 程 。 

3. 获得 过 程 执行 所 需 的 存储 资源 。 

4. 执行 需要 的 任务 。 

5. 将 结果 值 放 在 调用 程序 可 以 访问 的 地 方 。 

6. 将 控制 返回 调用 点 ， 一 个 过 程 可 能 在 程序 中 的 多 个 点 被 调用 。 

如 上 所 述 ， 寄 存 器 是 计算 机 中 保存 数据 最 快 的 地 方 ， 所 以 我 们 希望 尽 可 能 多 地 利用 寄存 
器 。LEGv8 软件 在 为 过 程 调 用 分 配 寄存 器 时 遵循 以 下 约定 : 
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。 X0 ~ X7: 作为 参数 寄存 器 ( 8 个 )， 用 于 传递 参数 或 返回 结果 。 
。 LR (X30): 作为 返回 地 址 寄存 器 (存放 过 程 调用 的 返回 地 址 )， 用 于 返回 原始 调用 点 。 
除了 分 配 寄 存 器 外 ，LEGv8 汇编 语言 还 为 过 程 调用 提供 了 一 条 指令 : 该 指令 在 跳 转 到 某 


个 地 址 的 同时 ， 将 下 一 条 指令 的 地 址 保存 在 寄存 器 LR (X30) 中 。 
这 条 分 支 和 链接 指令 (branch-and-link ins-truction)BL 可 简单 表示 为 : 

BL ProcedureAddress 
指令 名 中 的 链接 代表 指向 调用 者 的 地 址 或 链接 ， 以 允许 过 程 返 回 到 合适 
的 地 址 。 存 储 在 寄存 器 LR 中 的 “链接 ” 称 为 返回 地 址 (retum address)。 
返回 地 址 是 必需 的 ， 因 为 同一 过 程 可 能 在 程序 的 不 同 地 方 被 调用 。 

为 了 支持 从 过 程 调 用 返回 ,计算 机 (如 LEGv8 ) 使 用 了 寄存器 跳 
转 (branch register) 指令 BR， 表 示 无 条 件 跳 转 到 寄存 器 所 指定 的 地 址 : 

BR LR 
寄存 器 跳 转 指令 跳 转 到 存储 在 LR 寄存 器 中 的 地 址 一 一 这 正 是 用 户 
所 希望 的 。 因 此 ， 调 用 程序 或 称 为 调用 者 ( caller)， 将 参数 值 放 在 
X0 一 X7 中 ， 然 后 使 用 BL X 跳 转 到 过 程 X (有 时 称 为 被 调用 者 
(callee))。 被 调用 者 执行 运算 ， 将 结果 放 在 相同 的 参数 寄存 器 中 ， 
然后 通过 BR LR 指令 将 控制 返回 给 调用 者 。 

存储 程序 思想 的 一 个 隐 含 需求 ， 是 需要 一 个 寄存 器 来 保存 当前 
正在 执行 的 指令 的 地 址 。 出 于 历史 原因 ， 这 个 寄存 器 通常 称 为 程序 
计数 器 ( program counter)，LEGv8 体系 结构 中 缩写 为 PC。 当 然 ， 
这 个 寄存 器 更 贴切 的 名 字 可 能 应 该 是 指令 地 址 寄存 器 。BL 指令 实 
际 上 将 PC+4 保存 在 寄存 器 LR 中 ， 从 而 链接 到 下 一 条 指令 的 字 节 
地 址 ， 为 过 程 返回 做 好 准备 。 


2.8.1 使 用 更 多 的 寄存 器 


假设 对 于 一 个 过 程 ， 编 译 器 需要 的 寄存 器 超过 了 8 个 参数 寄存 
器 的 数量 。 由 于 在 任务 完成 后 必须 消除 过 程 产 生 的 踪迹 ， 因 此 调用 者 
原先 使 用 的 寄存 器 都 必须 恢复 到 过 程 调用 前 的 状态 。 这 种 情况 可 以 
看 成 是 需要 将 寄存 器 溢出 ( 换 出 ) 到 存储 器 的 一 个 例子 ， 如 “硬件 / 
软件 接口 ”部 分 ( 2.3.1 节 ) 所 提 到 的 那样 。 

换 出 寄存 器 的 最 理想 的 数据 结构 是 栈 ( stack) 一 一 一 种 后 进 先 
出 的 队列 。 栈 需要 一 个 指针 指向 栈 中 最 新 分 配 的 地 址 ， 以 指示 下 一 
个 过 程 放置 换 出 寄存 器 的 位 置 ， 或 是 寄存 器 旧 值 存放 的 位 置 。 在 每 
次 寄存 器 进行 保存 或 恢复 时 ， 栈 指针 ( Stack Pointer，SP) ( LEGv8 
的 32 个 寄存 器 之 一 ) 以 一 个 双 字 为 单位 进行 调整 。 由 于 栈 的 应 用 十 
分 广泛 ， 因 此 向 栈 传递 数据 或 从 栈 中 取 数 都 有 专用 术语 : 将 数据 放 
人 栈 中 称 为 压 栈 (push)， 从 栈 中 移 除数 据 称 为 弹 栈 (pop)。 

按照 历史 惯例 ， 栈 从 高 地 址 向 低地 址 “增长 ” 。 这 意味 着 数据 











分 支 和 链接 指令 : 跳 转 到 
某 个 地 址 的 同时 将 下 一 条 
指令 的 地 址 保存 到 寄存 器 
中 (LEGv8 中 为 寄存 器 
LIR， 即 X30)。 


返回 地 址 : 指向 调用 点 的 
链接 ， 供 过 程 执行 结束 时 
返回 到 合适 的 地 址 , LEGv8 
存储 在 寄存 器 LR 中 。 


调用 者 : 发 起 过 程 调 用 并 
提供 必要 参数 的 程序 。 


被 调用 者 : 根据 调用 者 提 
供 的 参数 完成 一 定 任务 的 
一 系列 指令 ， 执 行 完毕 后 
将 控制 权 返 回 给 调用 者 。 


程序 计数 器 : 存放 正在 执 
行 指令 的 地 址 的 寄存 器 。 


栈 : 一 种 后 进 先 出 队列 ， 用 
于 寄存 器 换 出 的 数据 结构 。 


栈 指 针 : 指示 栈 中 最 近 分 
配 的 地 址 ， 表 明 寄存 器 被 
摘出 的 位 置 ， 或 寄存 器 旧 
值 的 存放 位 置 。 在 LEGv8 
中 ， 栈 指针 是 寄存 器 SP。 


| 压 校 :向 栈 中 增加 元 素 。 


| 弹 模 : 从 栈 中 移出 元 素 。 


压 栈 时 ， 栈 指针 值 减 小 ;而 数据 弹 栈 时 ， 栈 指针 增 大 ，( 空 闲 ) 栈 空间 缩小 。 
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钱 盘 完整 的 ARMv8 指令 集中 ， 栈 指针 与 31 号 寄存 器 重 得 。 在 一 些 指令 中 ， 如 数据 
传输 指令 和 立即 数 运算 指令 ( 当 31 号 寄存 器 是 目的 寄存 器 或 第 一 源 操作 数 寄存 器 时 ， 不 设 
置 标志 位 )，31 号 寄存 器 表示 栈 指针 。 而 在 另外 一 些 指令 中 ， 如 寄存 器 算术 指令 或 者 设置 标 
志 位 的 指令 ，31 号 寄存 器 表示 0 寄存 器 XZR。 这 种 取 巧 的 方式 实际 只 节省 了 一 个 寄存 器 ， 但 
是 增加 了 数据 通路 ( 见 第 4 章 ) 的 复杂 度 ， 并 且 容易 引起 混淆 。 因 此 ， 我 们 假设 LEGv8 的 栈 
指针 是 其 他 31 个 通用 寄存 器 中 的 一 个 ， 本 书 用 寄存 器 X28 作 栈 指针 。 


上 例题 | 编译 一 个 不 调用 其 他 过 程 的 C 过 程 和 
将 2.2 节 的 例子 转化 为 一 个 C 过 程 : 


long long int leaf_example (long long int g, long long 
int h, long long int i, long long int j) 





long long int f; 


f=(g+h)-(i+j); 
return f; 
} 


编译 后 的 LEGv8 汇编 代码 是 什么 ? 
| 答案 | 参数 变量 g、h 、i 和 j 分 别 对 应 参数 寄存 器 X0、x1、X2 和 X3, 工 对 应 X19。 编 
译 后 的 程序 是 以 一 个 过 程 标号 开始 的 : 


leaf_example: 


下 一 步 是 保存 过 程 中 使 用 的 寄存 器 。 过 程 实体 中 的 C 赋值 语句 使 用 了 两 个 临时 寄存 器 X9 和 
X10。 因 此 ， 需 要 保存 三 个 寄存 器 : X19、X9 和 X10。 我 们 将 旧 值 “ 压 栈 "， 即 在 栈 中 建立 
三 个 双 字 的 空间 ( 24 个 字 节 )， 并 将 三 个 寄存 器 的 值 存 人 : 


SUBI SP, SP, #24 1/ adjust stack to make room for 3 items 
STUR X10, [SP,#16] // save register X10 for use afterwards 
STUR xX9, [SP,#8] 1/ save register X9 for use afterwards 
STUR X19, [SP,#0] // save register X19 for use afterwards 
图 2-11 给 出 了 在 过 程 调用 前 、 过 程 调用 中 以 及 过 程 调 用 后 栈 的 变化 情况 。 

高 地 址 

SP 一 SP 一 

SP 一 
低地 址 
a) b) © 


图 2-11 在 过 程 调用 前 (a)、 调 用 中 (b) 和 调用 后 (c) 的 栈 指针 以 及 栈 的 状态 。 
栈 指针 总 是 指向 栈 项 ， 或 者 说 是 图 中 栈 的 最 后 一 个 双 字 


接 下 来 三 条 语句 对 应 过 程 体 ， 与 2.2 节 的 例子 相同 : 

ADD X9,X0,X1  // registen X9 contains g+h 

ADD X10,X2.X3 // register X10 contains 1 +j 

SUB X19,X9,X10 // f = x9 — X10, which is (g + h) — (i + j) 
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为 了 返回 £ 的 值 ， 我们 将 它 复制 到 一 个 参数 寄存 器 中 : 
ADD X0,X19,XZR // returns f (X0 = X19 + 0) 


在 返回 前 ， 还 要 通过 “ 弹 栈 ”恢复 三 个 寄存 器 的 旧 值 : 


LDUR X19, [SP,#0] // restore register X19 for caller 
LDUR XxX9, [SP,#8] // restore register X9 for caller 
LDUR X10, [SP,#16] // restore register X10 for caller 
ADDI SP,SP,#24 /1/ adjust stack to delete 3 items 


过 程 最 后 通过 一 条 寄存 器 分 支 指令 跳 转 到 返回 地 址 : 

BR LR 1/ branch back to calling routine 

上 例 中 ,我 们 使 用 了 临时 寄存 器 ( X9 和 X10)， 并 假设 它们 的 旧 值 必须 保存 和 恢复 。 为 
了 避免 保存 和 恢复 一 个 从 未 被 使 用 过 的 寄存 器 (通常 是 临时 寄存 器 )，LEGv8 软件 将 其 中 19 
个 寄存 器 分 为 两 组 : 

。 X9 ~ X17: 在 过 程 调 用 中 ， 不 需要 由 被 调用 者 (被 调用 的 过 程 ) 保存 的 临时 寄存 器 。 

。 X19 一 X28 : 在 过 程 调 用 中 必须 被 保存 (一 旦 被 使 用 ， 由 被 调用 者 保存 和 恢复 ) 的 保 

存 寄 存 器 。” 

这 一 简单 约定 减少 了 寄存 器 的 换 出 。 在 上 面 的 例子 中 ， 因 为 调用 者 不 期 望 在 过 程 调用 时 
保留 寄存 器 X9 和 X10”， 所 以 我 们 可 以 去 掉 代码 中 的 两 次 保存 和 两 次 载 和 操作。 但 仍 需 要 保 
存 和 恢复 X19， 因 为 被 调用 者 只 能 假设 调用 者 需要 该 值 。” 


2.8.2 ”过 程 嵌 套 


不 调用 其 他 过 程 的 过 程 称 为 叶 (leaf) 过 程 。 如 果 所 有 过 程 都 是 叶 过 程 ， 那 么 情况 就 很 简单 ， 
但 实际 并 非 如 此 。 就 像 一 个 间谍 ， 他 可 能 会 雇用 其 他 间谍 帮助 自己 完成 部 分 任务 ， 而 被 雇用 的 
间谍 又 可 以 雇用 更 多 的 间谍 ， 某 个 过 程 也 可 以 这 样 调用 其 他 过 程 。 而 递归 过 程 甚至 调用 的 是 自 
身 的 “克隆 " 。 就 像 在 过 程 中 使 用 寄存 器 需要 十 分 小 心 一 样 ， 在 调用 非 叶 过 程 时 也 要 特别 注意 。 

例如 ， 假 设 主 程序 调用 过 程 A， 将 参数 3 存 人 寄存 器 X0， 然 后 执行 指令 BL A。 再 假设 
过 程 A 通过 BL B 调用 过 程 B， 参 数 为 ?7， 同 样 存 人 X0。 由 于 A 的 任务 尚未 完成 ， 所 以 A、 
B 都 要 使 用 X0， 这 将 产生 冲突 。 同 样 ， 在 寄存 器 LR 保存 的 返回 地 址 上 也 存在 冲突 ， 因 为 现 
在 保存 了 B 的 返回 地 址 。 必 须 采 取 措 施 来 防止 这 类 问题 发 生 ， 否 则 冲突 将 导致 过 程 A 无 法 
返回 其 调用 者 。 

一 种 解决 方法 是 将 其 他 所 有 必须 保留 的 寄存 器 压 栈 ， 就 像 将 保存 寄存 器 压 栈 一 样 。 调 用 
者 将 所 有 调用 后 需要 的 参数 寄存 器 ( X0 一 X7) 或 临时 寄存 器 (X9 一 X17) 压 栈 。 被 调用 者 
将 返回 地 址 寄存 器 LR 和 被 调用 者 使 用 的 保存 寄存 器 (X19 一 X25) 压 栈 。 栈 指针 SP 随 着 压 
和信 栈 中 的 寄存 器 个 数 进行 调整 。 返 回 时 ， 寄 存 器 从 存储 器 中 恢复 ， 栈 指针 也 随 之 重新 调整 。 


























| 例题 | 编译 一 个 递归 的 C 过 程 ， 演 示 嵌 套 过 程 的 链接 a 





下 面 是 一 个 计算 阶乘 的 递归 过 程 : 


名 即 约定 哪 些 寄 存 器 由 调用 者 保存 ， 哪 些 由 被 调用 者 保存 - 一 一 译 者 注 

加 注意 本 书 将 X9 一 X17 划分 为 “临时 寄存 器"，X19 ~ X28 划分 为 “保存 寄存 器 " 。 一 一 译 者 注 
辐 按照 约定 ,被 调用 者 不 负责 X9 一 X17。 一 详 者 注 

是 被 调用 者 并 不 知道 调用 者 是 否 要 使 用 ， 故 最 保险 的 方式 是 保存 X19。 一 一 译 者 注 
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2 : 沸 纪 六 





long long int fact (long long int n) 
{ 


if (n < 1) return (1); 
else return (n * fact(n 一 1)); 


[04 请 写 出 对 应 的 LEGv8 汇编 代码 。 


| 答案 | 参 变量 n 对 应 参数 寄存 器 X0。 编 译 后 的 程序 从 过 程 标签 开始 ， 然 后 将 两 个 寄存 器 保 
存在 栈 中 ， 一 个 是 返回 地 址 ， 另 一 个 是 X0 : 


fact: 
SUBI SP, SP, #16 // adjust stack for 2 items 
STUR LR, [SP,#8] // save the return address 
STUR X0, [SP,#0] // save the argument n 


第 一 次 调用 fact 时 ，STUR 保存 程序 中 调用 fact 的 地 址 。 下 面 两 条 指令 测试 n 是 否 小 于 
1， 如 果 n>1 则 跳 转 到 L1。 

SUBIS ZXR,X0, #1 // test for n《1 

B.GE L1 /! if n >= 1, go to Ll1 
如 果 n 小 于 1，fact 将 1 放 人 一 个 参数 寄存 器 Xl1 并 返回 ， 具 体 步 骤 是 : 在 0 上 加 1， 和 存 
入 X1， 然 后 从 栈 中 弹出 两 个 已 保存 的 值 并 跳 转 到 返回 地 址 : 


ADDI Xl1,XZR, #1 // return 1 
ADDI SP,SP,#16 // pop 2 items off stack 
BR LR /1/ return to caller 


在 从 栈 中 弹出 两 项 之 前 ， 本 应 该 加 载 X0 和 LR。 但 由 于 n 小 于 1 时 ，X0 和 LR 没有 变化 ， 
所 以 跳 过 了 这 些 指令 。 
如 果 n 不 小 于 1， 参数 nn 减 1， 然 后 使 用 减 1 后 的 值 再 次 调用 fact: 


L1: SUBI X0,.Xx0,#1 // n >= 1: argument gets (n — 1) 
BL fact /4/ call fact with (n — 1) 


下 一 条 指令 是 fact 的 返回 位 置 。 下 面 恢复 旧 的 返回 地 址 、 旧 的 参数 ， 以 及 栈 指针 : 


LDUR XxX0, [SP,#0]  // return from BL: restore argument n 
LDUR LR, [SP,#8] // restore the return address 
ADDI Sp, Sp, #16  // adjust stack pointer to pop 2 items 


接 下 来 ， 值 寄存 器 X1 得 到 旧 参 数 X0 和 当前 值 寄存 器 的 乘积 ,假设 乘法 指令 是 可 用 的 (第 3 
章 介绍 乘法 指令 )。 





MUL XI,X0 ,X1 // return n * fact (n 一 1) 
最 后 ，fact 再 次 跳 转 到 返回 地 址 : 
BR LR // return to the caller 





| C 语言 中 的 一 个 普 量 通常 对 应 存储 器 中 的 一 
个 位 置 ， 其 解释 取决 于 类 型 和 存储 方式 。 册 型 的 类 型 包括 整 型 和 字 | 会 避 掉 外: 丰 由 村 二 全 
符 型 ( 见 2.9 节 )。C 语言 提供 两 种 存储 方式 : 动态 的 和 静态 的 。 动 
态 变量 位 于 过 程 中 ， 当 过 程 退出 时 失效 。 静 态 变量 在 进入 和 退出 过 程 时 始终 存在 。 在 所 有 过 
程 之 外 声明 的 C 变量 ， 以 及 声明 时 使 用 关键 字 static 的 变量 都 被 视 作 静 态 的 ， 其 余 的 变量 都 
被 视 人 动态 的 。 为 了 简化 对 静态 数据 的 访问 ，LEGv8 编译 器 保留 了 一 个 者 存 器 ， 称 为 全 局 指 
针 (global pointer)， 即 GP。 例 如 ，X27 寄存 器 可 以 保留 作为 全 局 指针 。 


上 信 : 计 
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图 2-12 总 结 了 过 程 调用 时 所 需 保存 的 内 容 。 需 要 注意 的 是 ， 几 种 机 制 都 保存 了 栈 ， 以 确保 
调用 者 出 栈 时 得 到 与 压 栈 时 相同 的 数据 。SP 以 上 的 栈 > 通 过 确保 被 调用 者 不 在 SP 以 上 进行 写 操 
作 ， 就 可 以 得 到 保存 ; 而 SP 本 身 的 保存 是 通过 被 调用 者 对 SP 加 上 将 减 去 的 值 实现 的 ， 其 他 寄 





存 器 则 通过 将 它们 保存 到 栈 (如 果 被 使 用 到 ) 再 从 栈 中 恢复 来 进行 保存 。 








保存 寄存 器 ; X19~X27 临时 寄存 器 ; X9~X15 





栈 指针 寄存 器 : X28(SP) 





参数 结果 寄存 器 ， X0-X7 





帧 指针 寄存 器 : X29(FP) 





链接 ( 返回 地 址 ) 寄存 器 ; X30( LR) 








栈 指 针 以 上 的 术 术 指 针 以 下 的 楼 








图 2-12 过 程 调用 时 保留 和 不 保留 的 内 容 。 如 果 软 件 依赖 于 全 局 指针 寄存 器 (后续 小 节 将 讨 


论 )， 那 么 该 寄存 器 也 需要 保留 
2.8.3 在 栈 中 为 新 数据 分 配 空间 


栈 的 另 一 点 复杂 性 在 于 ， 栈 还 用 来 保存 过 程 的 局 部 变量 ， 而 这 些 变量 可 能 不 适用 于 寄存 器 ， 
例如 局 部 数组 或 结构 体 。 栈 中 包含 过 程 所 保存 的 寄存 器 和 局 部 变量 的 片段 称 为 过 程 帧 (procedure 


frame) 或 活动 记录 (activation record)。 图 2-13 显示 了 过 程 调用 前 、 调 用 时 

有 些 ARMv8 编译 器 使 用 帧 指针 ( Frame Pointer，FP) 指向 过 程 
帧 的 第 一 个 双 字 。 在 过 程 中 栈 指针 可 能 会 发 生 改 变 。 因 此 ， 在 过 程 中 
的 不 同位 置 对 存储 器 中 局 部 变量 的 引用 可 能 具有 不 同 的 偏 移 量 ， 这 使 
得 过 程 更 加 难以 理解 。 另 一 种 方案 是 ， 帧 指针 在 一 个 过 程 中 为 本 地 存 
储 器 引用 提供 一 个 固定 的 基 址 寄存 器 。 注 意 ， 无 论 是 否 使 用 显 式 的 帧 
指针 ， 活 动 记 录 都 出 现在 栈 中 。 我 们 通过 避免 在 过 程 中 修改 SP 来 避 
免 使 用 FP， 在 我 们 的 例子 中 ， 栈 只 在 进入 和 离开 过 程 时 调整 。 


高 地 址 
FP 一 








FP 一 


SP 一 SP 一 


SP 一 


低地 址 
a) b) ©) 


和 调用 后 栈 的 状态 。 


过 程 帧 : 也 称 作 活动 记录 ， 
栈 中 包含 过 程 所 保存 的 寄 
存 器 以 及 局 部 变量 的 片段 。 


帧 指针 : 指向 给 定 过 程 中 
保存 的 寄存 器 和 局 部 变量 
的 值 (指针 )。 


图 2-13 过程 调 用 前 ( a)、 调 用 时 ( b)、 调 用 后 (c) 栈 的 分 配 情况 。 帧 指针 ( FP 或 者 X29) 指向 该 帧 





的 第 一 个 双 字 (一 般 是 保存 的 参数 寄存 器 )， 栈 指针 ( SB) 指向 栈 顶 。 栈 进行 调整 ， 为 所 有 的 
保存 寄存 器 和 驻 留 在 内 存 的 局 部 (本地) 变量 提供 足够 的 空间 。 因 为 在 程序 运行 期 间 栈 指针 可 
能 会 改变 ， 所 以 对 于 程序 员 而 言 ， 虽 然 使 用 栈 指针 和 少量 的 地 址 运算 就 可 能 完成 对 变量 的 引 
用 ,但 使 用 固定 的 帧 指针 引用 变量 会 更 为 简单 。 如 果 在 一 个 过 程 中 栈 中 没有 局 部 变量 ， 则 编 
译 器 可 以 不 设置 和 不 恢复 帧 指针 以 节省 时 间 。 使 用 帧 指针 时 ， 在 过 程 调用 时 使 用 SP 中 的 地 
址 初始 化 FP， 而 SP 可 以 使 用 FP 来 恢复 。 相 关内 容 可 以 在 LEGv8 参考 数据 卡 的 第 4 列 找到 


日 栈 的 生长 方向 是 从 高 地 址 往 低地 址 。 一 一 译 者 注 
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2.8.4 在 堆 中 为 新 数据 分 配 空间 


除了 动态 变量 (过 程 的 局 部 变量 ) 之 外 ，C 程序 员 还 需要 在 内 存 放生 
中 为 静态 变量 和 动态 数据 结构 提供 空间 。 图 2-14 给 出 了 LEGv8 在 | 中 的 用 ， 包 含 源 文 件 中 全 
运行 Linux 操作 系统 时 内 存 分 配 的 约定 。 栈 从 用 户 地 址 空间 ( 见 第 5 | 程 的 机 器 语言 代码 。 
章 ) 的 高 端 (高 地 址 ) 开始 并 向 下 增长 。 内 存 低 端 的 第 一 部 分 是 保留 
的 ， 接 着 是 LEGv8 机 器 代码 ， 通 常 称 为 代码 段 (text segment)。 代 码 段 之 上 是 静态 数据 段 ， 
是 存储 常量 和 其 他 静态 变量 的 空间 。 数 组 通常 具有 固定 长 度 ， 因 而 能 与 静态 数据 段 很 好 地 匹 
配 。 但 类 似 链表 这 样 的 数据 结构 通常 会 在 生命 期 内 增长 或 缩短 ， 这 类 数据 结构 对 应 的 段 通常 
称 为 堆 ( heap), 一 般 在 存储 器 中 放 在 静态 数据 段 之 后 。 这 种 分 配 允 许 栈 和 堆 相互 增长 ( 往 相 
反方 向 )， 从 而 在 两 个 段 此 消 彼 长 的 过 程 中 实现 对 内 存 的 高 效 使 用 。 

C 语言 通过 显 式 的 函数 调用 在 堆 上 分 配 和 释放 空间 。malloc( ) 在 堆 上 分 配 空 间 并 返回 指 
向 该 空间 的 指针 ，free( ) 释放 指针 指向 的 堆 空 间 。 内 存 分 配 由 C 程序 控制 ， 这 是 很 多 错误 产 
生 的 根源 。 忘 记 释放 空间 会 导致 “内 存 泄漏 ”( memory leak)， 大 量 内 存 被 消耗 以 至 于 操作 系 
统 可 能 崩溃 。 但 过 早 释放 空间 会 导致 “悬挂 指针 ”(dangling pointer)， 即 造成 指针 指向 程序 从 
未 打算 访问 的 空间 。Java 使 用 自动 内 存 分 配 和 垃圾 回收 机 制 来 避免 类 似 错误 的 发 生 。 


Sp -= 0000 007f ffff fffchex 










0000 0000 1000 0000nex 


PEC- 0000 0000 0040 0000hex 
0 
图 2-14 LEGv8 中 程序 和 数据 的 内 存 分 配 。 这 些 地 址 只 是 一 种 软件 上 的 约定 ， 并 非 
LEGv8 体系 结构 的 要 求 。 在 64 位 的 体系 结构 中 地 址 空间 大 小 为 2% ( 见 第 5 章 )， 
用 户 地 址 空间 大 小 设 为 2?。 栈 指针 初始 化 为 0000 007f ffff fffehex， 并 向 数据 段 
的 方向 向 下 增长 。 在 另 一 端 ， 程 序 代码 (代码 段 ) 从 地 址 0000 0000 0040 0000hex 
开始 。 项 态 数据 紧 跟 着 代码 段 ， 本 例假 定 从 地 址 0000 0000 1000 0000he* 开始 。 
然后 是 动态 数据 ( C 中 使 用 malloc 分 配 ，Java 中 使 用 new 分 配 )， 朝 栈 的 方向 向 
上 生长 ， 动 态 数据 所 在 区 域 称 为 堆 。 相 关内 容 可 在 LEGv8 参考 数据 卡 的 第 4 列 
找到 


图 2-15 给 出 了 LEGv8 汇编 语言 中 寄存 器 使 用 的 约定 。 这 种 约定 也 体现 了 婴 建 深入 率 事 
锥 的 思想 : 大 多 数 过 程 只 需要 8 个 参数 寄存 器 、9 个 保存 寄存 器 、7 个 临时 寄存 器 就 能 满足 
执行 需要 ， 而 无 需 使 用 存储 器 。 

也 如 果 参 数 多 于 8 个 该 怎么 办 ? LEGv8 约定 将 额外 的 参数 放 在 栈 中 帧 指针 的 上 方 。 
这 样 ， 过 程 从 寄存 器 X0 到 X7 中 获得 前 8 个 参数 ， 通 过 帧 指针 在 内 存 中 寻 址 获得 其 余 参数 。 

如 图 2-13 所 示 ， 因 为 过 程 中 所 有 栈 内 的 变量 引用 都 具有 相同 的 和 偏 移 ， 所 以 帧 指针 使 用 
起 来 非常 方便 。 然 而 ， 帧 指针 并 不 是 必需 的 。ARM C 编译 器 使 用 帧 指针 ， 而 其 他 的 编译 器 
(如 C 编译 器 ) 则 没有 使 用 ， 它 们 将 寄存 器 29 用 作 另 一 个 保存 寄存 器 。 
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X0 ~ X7 参数 /结果 否 
Xx8 8 间接 结果 位 置 寄存 器 否 
X9~X15 9-15 临时 变量 否 
6 tpo) | 1 | ede 内 |。 下 

和 被 链接 器 作为 暂 存 寄存 器 使 用 ， 或 作 否 
X17 (1P1) 为 临时 寄存 器 | 

在 平台 无 关 的 代码 中 用 作 平台 寄存 理 
X18 器 ， 否 则 作为 临时 寄存 器 
X19~ X27 19-27 保存 是 
X28 (SP) 28 栈 指针 是 
X29 (Fp) 29 帧 指针 是 
X30 (LR) 30 链接 寄存 器 ( 返回 地 址 ) 是 
XZR 31 常数 0 不 适用 




















图 2-15 LEGv8 寄存 器 使 用 约定 。 相 关内 容 在 LEGv8 参考 数据 卡 的 第 2 列 中 可 以 找到 。 过 程 
使 用 X8 寄存 器 返回 指针 指向 的 结果 。ARM 不 鼓励 使 用 x16 ~ X18 寄存 器 ， 因 为 
X16 和 X17 可 能 被 链接 器 使 用 ( 见 2.12 节 )，X18 寄存 器 可 能 被 用 来 产生 平台 无 关 的 
代码 (可 能 由 平台 的 应 用 程序 二 进 制 接口 规定 ) 


吴 隐 一 些 递归 过 程 可 以 不 通过 递归 而 用 迭代 方式 实现 。 通 过 消除 递归 时 过 程 调 用 产生 
的 相关 开销 ， 可 以 显著 提高 迭代 性 能 。 例 如 ， 考 虐 下 面 的 求 和 过 程 : 
long 1ong int sum (long long int n, long long int acc) | 
if (n 20) 
return sum(n 一 1，acc + n); 
else 
return acc; 


上 

考虑 过 程 调用 sum (3，0) 。 该 过 程 递归 调用 sum(2，3) 、sum(1, 5) 和 sum(0，6) ， 
结果 6 通过 4 次 返回 操作 得 到 。 这 种 求 和 的 递归 调用 称 为 尾 调用 ， 这 个 尾 递归 的 例子 可 以 高 
效 地 实现 (假设 X0=n 且 X1=acc， 结 果 在 X2 中 ): 8 


Sum: SUBS XZR，X0，XZR // compare n to 0 
B.LE Sum_exit // go to sum_exit if n <= 0 
ADD Xx1, Xl1, x0 // add n to acc 
SUBI X0，X0， 折 // subtract 1 from n 


B sum 1/ go to sum 
Sum_exit: 

ADD X2, Xl1, XZR // return value acc 

BR LR // return to caller 








日 使 用 迭代 法 ,减少 过 程 调用 - 一 一 译 者 注 
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2.9 人 机 交互 ! (@| =>(wow open tab at 
bar is great) 
计算 机 发 明 最 初 是 用 于 处 理 数字 的 ， 但 在 进入 商业 应 用 时 ， 计 | 名 盐 坟 “Hatess Atlas” 裔 4 
算 机 已 经 能 够 处 理 文字 了 。 今 天 计算 机 基本 都 使 用 8 位 的 字 节 来 表 ee ee bh 
示 字 符 ， 并 遵循 美国 信息 交换 标准 代码 ( 即 ASCII 码 )。 图 2-16 给 | 是 open，." 是 bar 学 条 ) 
出 了 ASCII 码 对 照 表 。 
| 32 space 0 64 @ P 112 p 
33 上 49 | 才 65 A 81 Q a 113 9q 
34 50 2 | 66 和 | 本 一 R 98 b 114 r 
35 # 51 3 67 6 83 S 99 115 § 
36 $ 52 | 4 | 68 D 84 T aon | 志 116 二 
37 % 53 5 69 E 85 四 101 e | 117 u 
38 & 54 | 6 70 上 86 V 102 f 118 | v 
39 ' 55 7 a 87 W 103 E 119 w 
40 56 8 H || a8 x 104 h 120 | 
一 村 yi 9 73 1 || 89 Y 105 i 121 y 
2 | *» | 58 J 90 z i | az 
43 + 59 K 91 [ 107 k | 123 { 
44 ，| 60 < L 9 | \ | 108 i 124 | 
45 61 = M | 93 ] || i109 m 125 ; 
46 yy 划一 > N 94 人 110 | n | 126 ~ 
已 好 7 63 ? om | | | a 127 | DEL 


















































图 2-16 ASCII 码 对 照 表 。 注 意 ， 所 有 大 写字 母 和 对 应 小 写字 母 的 差 均 为 32， 这 个 规律 可 以 用 
于 快速 检查 和 切换 大 小 写 。 格 式 化 字符 的 ASCII 值 没有 列 在 上 表 中 。 例 如 ，8 代表 退 
格 ,9 代表 tab 字符 ， 而 13 代表 回 车 。 另 外 一 个 有 用 的 ASCII 值 是 0， 表 示 null，C 
语言 常用 它 来 标记 字符 串 的 结尾 


| 例题 | ASCII 码 与 二 进 制 数 。 

我 们 可 以 使 用 一 串 ASCII 码 字符 而 不 用 整数 来 表示 数字 。 用 一 串 ASCII 码 来 表示 10 亿 
这 个 数 ， 相 对 于 用 一 个 32 位 的 整数 来 表示 ， 存 储 空间 增加 了 多 少 ? 
| 答案 | 10 亿 就 是 1 000 000 000， 需 要 使 用 10 位 ASCII 码 表示 ， 每 一 个 ASCII 码 都 是 8 位 
长 。 所 以 存储 将 增长 到 (10 x 8) /32， 即 2.5 倍 。 除 了 存储 空间 增加 外 ， 硬 件 对 这 些 十 进 制 数 
字 进 行 加 、 减 、 乘 、 除 也 变 得 困难 ， 并 需要 更 多 的 能 耗 。 这 些 困 难 也 解释 了 为 什么 计算 专家 
越 来 越 相信 使 用 二 进 制 是 自然 的 ， 而 县 花 一 现 的 十 进 制 计算 机 是 很 怪异 的 。 


通过 使 用 一 系列 指令 可 以 从 一 个 双 字 中 提取 出 一 个 字 节 ， 所 以 load register 和 store 
register 足以 完成 字 和 字 节 的 传输 。 然 而 ， 很 多 程序 中 经 常 要 处 理 文本 ， 因 此 LEGv8 额外 提 
供 了 字 节 移动 指令 。 读 字 节 指令 LDURB ( load byte) 从 内 存 中 读 出 一 个 字 节 ， 并 将 其 放 在 一 
个 寄存 器 最 右边 的 8 位 。 存 字 节 指令 STURB (store byte) 把 一 个 寄存 器 最 右边 的 8 位 ( 即 一 
个 字 节 ) 取出 ， 并 写 到 内 存 中 。 这 样 ， 我 们 可 以 用 以 下 指令 序列 复制 一 个 字 节 : 

LDURB X9,[X0,#0] /1/ Read byte from source 

STURB X9,[X1l,#0]  // Write byte to destination 


字符 通常 被 组 合 为 字符 数目 可 变 的 字符 串 。 表 示 一 个 字符 串 有 三 种 方法 : 中 保留 字 
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符 串 的 第 一 个 位 置 用 于 给 出 字符 串 的 长 度 ; @ 附 加 一 个 指明 字符 串 长 度 的 变量 (如 在 结 
构 体 中 ); @ 字 符 串 最 后 的 位 置 用 一 个 字符 来 标识 其 结尾 。C 语言 使 用 第 三 种 方法 ， 用 一 
个 值 为 0(ASCII 码 中 的 null) 的 字 节 来 结束 字符 串 。 因 此 ,在 C 语言 中 ,字符 串 “ Cal” 
由 4 字 节 表示 ， 由 十 进 制 表示 分 别 为 67、97、108、0。( 下 面 即将 看 到 ，Java 采用 第 一 种 
方法 。) 























| 例题 | 编译 一 个 字符 串 复制 过 程 ， 体 会 如 何 使 用 C 语言 的 字符 串 
过 程 strcpy 利用 C 语 言 中 以 null 字 节 结束 字符 串 的 约定 ， 将 字符 串 y 复制 给 字符 串 x: 


void strcpy (char x[], char y[]) 
! 


ize € 43 
1 0 
While ((x[i] = y[i]) != '\0') /* copy & zest byte */ 
人 
请 给 出 编译 后 的 LEGv8 汇编 代码 。 


| 答案 | 下 面 是 基本 的 LEGv8 汇编 代码 段 。 假 设 数组 x 和 Y 的 基 址 在 X0 和 XI1 中 ,而 i 在 
X19 中 。strcpy 调整 栈 指针 ， 然 后 将 保存 寄存 器 X19 保存 在 栈 中 。 


Strcpy: 
SUBI SP,SP,#8 // adjust stack for 1 more item 
STUR X19, [SP,#0] // save X19 


为 了 将 i 初始 化 为 0， 下 一 条 指令 将 0 和 0 相 加 并 将 和 放 到 X19 中 ， 从 而 将 X19 置 为 0: 
ADD X19,XZR,XZR // i=0+0 
这 是 循环 的 开始 。y [i] 的 地 址 通过 把 i 加 到 y[] 上 得 到 : 
Ll: ADD X10,X19,X1 // address of y[i] in X10 
注意 ， 这 里 不 必 将 i 乘 以 8， 因 为 y 是 字 节 数组 而 并 非 双 字数 组 。 
为 了 读 取 y1i] 中 的 字符 ,我 们 使 用 无 符号 字 节 读 取 ( load byte unsigned) 指令 ,将 字 
符 放 人 X11 中 : 
LDURB X11, [X10,#0] // X11l = y[i] 


采用 类 似 的 计算 方式 将 x [i] 的 地 址 放 在 X12 中 ,然后 将 X11 中 的 字符 存 到 该 地 址 。 


ADD X12,X19.xX0 /1 address of x[i] in X12 
STURB X11, [X12,#0] // x[i] = y[i] 


下 一 步 ， 如 果 字 符 是 0 则 退出 循环 。 也 就 是 说 ， 如 果 遇 到 字符 串 的 最 后 一 个 字符 则 退出 : 
CBZ X11,L2 // if yli] — 0, go to L2 


如 果 不 是 ,将 工 加 1 并 继续 循环 : 


ADDI X19, x19,#1 // i=i+l1 
8 Ll1 1/ go to Ll 


如 果 不 继续 循环 ， 那 就 是 到 了 字符 串 的 最 后 一 个 字符 ， 此 时 恢复 X19 和 栈 指针 ， 然 后 返 


L2: LDUR X19, [SP.#0] // y[i] 一 0: end of string. 
1/ Restore old X19 
ADDI SP,SP,#8 // pop 1 doubleword off stack 
BR LR 1/ return 








s 
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在 C 中 ,字符 串 复制 通常 使 用 指针 而 非 数 组 ， 从 而 避免 上 面 代码 中 对 i 的 操作 。 详 见 
2.14 节 关于 数组 和 指针 的 对 比 。 = 





由 于 strcpy 是 一 个 叶 过 程 ， 因 此 编译 器 可 以 把 i 分 配给 一 个 临时 寄存 器 ， 从 而 避免 
对 X19 进行 保存 和 恢复 。 因 此 ， 我 们 不 必 把 这 些 寄存 器 仅 用 作 临 时 寄存 器 ， 而 可 以 将 其 用 
作 被 调用 者 可 以 方便 使 用 的 寄存 器 。 当 编译 器 遇 到 叶 过 程 时 ， 会 在 使 用 那些 必须 保存 的 寄存 
器 之 前 ， 用 尽 所 有 的 临时 寄存 器 。 


Java 中 的 字符 和 字符 串 


Unicode 提供 了 大 多 数 人 类 语言 字母 表 的 通用 编码 。 图 2-17 给 出 了 一 些 Unicode 字母 
表 ，Unicode 中 的 字母 数 和 ASCII 编码 中 有 用 的 符号 数 几乎 一 样 多 。 为 了 增加 包容 性 ，Java 
对 字符 采用 Unicode 编码 。 默 认 情况 下 ，Unicode 使 用 16 位 来 表示 一 个 字符 。 








































































Latin Malayalam | Tagbanwa General Punctuation ] 
Greek Sinhala Khmer Spacing Modifier Letters 
Cyrilic Thai Mongolian Currency Symbols 
Amenian |Lao Limbu Combining Diacritical Marks 
Hebrew Tibetan Taile Combining Marks for Symbols 
Arabic Myanmar Kangxi Radicals Superscripts and Subscripts 
Syriac Georgian Hiragana Number Forms 
Thaana |HangulJamo |Katakana 
Devanagari “| Ethiopic omol 
| Bengah Cherokee Kanbun Braile Patterns 
Gurmukhi Unified Canadian | Shavian Optical Character Recognition 
Aboriginal Syllabic 
Gujarat |Ogham Osmanya 到 Byzantine Musical Symbols 
Oriya Runic Cypriot Syllabary Musical Symbols 
| Tamil | Tagalog Tai Xuan Jing Symbols “| Arrows 
|Telugu Hanunoo Yijing Hexagram Symbols Box Drawing 
Kannada Buhid lAegean Numbers Geometric Shapes 














图 2-17 Unicode 字母 表示 例 。Unicode 4.0 版 本 有 超过 160 个 “ 块 "， 每 个 块 是 一 个 符号 
集 的 名 字 ， 且 是 16 的 整数 倍 。 例 如 ， 和 希腊 ( Greek) 字符 从 0370hex 开始 ， 西 里 
尔 字符 (Cyrillie) 从 0400hex 开始 。 前 三 列 以 Unicode 的 数字 顺序 粗略 地 列 出 了 
与 48 种 人 类 语言 对 应 的 48 个 块 。 最 后 一 列 中 的 16 个 块 是 多 种 语言 ， 并 没有 
按照 顺序 排列 。 默 认 情 况 下 ，Unicode 使 用 16 位 编码 ， 称 为 UTF-16。 而 另 一 
种 称 为 UTF-8 的 可 变 长 编码 ， 保 持 ASCII 子 集 为 8 位 ， 而 其 余 字 符 用 16 或 32 
位 来 表示 。UTF-32 则 使 用 32 位 表示 一 个 字符 。 更 多 内 容 参见 www.unicode.org 


LEGv8 指令 集中 的 一 些 指令 能 够 显示 地 读 取 和 存储 16 位 量 ， 即 半 字 。 读 半 字 指令 LDURH 
(load half) 从 存储 器 中 读 出 一 个 半 字 ， 然 后 将 其 放 在 寄存 器 的 最 右边 16 位 。 与 读 字 节 类 似 ， 
读 半 字 指 令 LDURH 也 将 半 字 看 作 有 符号 数 ， 并 进行 符号 扩展 以 填充 寄存 器 中 剩余 的 48 位 。 
存 半 字 指令 STURH ( store half) 将 寄存 器 最 右边 的 16 位 写 和 存储器。 下 面 的 指令 序列 可 以 
复制 半 字 : 

LDURH X19,[X0,#0] // Read halfword (16 bits) from source 

STURH X9,[X1,#0] // Write halfword (16 bits) to dest. 


日 、 即 统一 码 、 万 国 码 。 一 一 译 者 注 
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字符 串 是 一 个 标准 的 Java 类 ， 它 对 级 联 、 比 较 、 转 换 提供 了 自 带 的 支持 和 预定 义 方法 。 
与 C 不 同 的 是 ，Java 包含 一 个 字 来 给 出 字符 串 长 度 ， 和 Java 数组 相似 。 

区 也 ARMv8 软件 试图 保持 栈 按 四 字 ( 16 字 节 ) 地 址 对 齐 来 获得 更 好 的 性 能 。 这 一 约 
定 意 味 着 一 个 分 配 在 栈 中 的 char 类 型 变量 实际 占 了 16 字 节 ， 尽 管 它 并 不 需要 这 么 多 。 然 而 ， 
一 个 C 字符 串 变 量 或 一 个 字 节 数组 会 把 每 16 字 节 压缩 为 一 个 4 字 ， 而 一 个 Java 字符 串 变 量 
或 short 类 型 数组 会 把 每 8 个 半 字 压缩 为 一 个 4 字 。 

请 钥 为 了 体现 Web 的 全 球 性 ， 当 今 大 部 分 Web 页 面 采用 Unicode， 而 非 ASCIL。 
此 ， 目 前 Unicode 比 ASCII 码 更 为 流行 - 

对 稻 ;LEGv8 保持 所 有 的 数据 处 理 都 是 64 位， 而 ARMv8 同时 提供 32 位 和 64 位 的 
指令 。 这 意味 着 LEGv8 需要 实现 存 字 指令 ( STURW，store word)， 尽 管 该 指令 并 没有 在 
ARMv8 的 中 出 现 。ARMv8 在 STUR 指令 中 使 用 W 型 (32 位 ) 寄存 器 而 不 是 又 型 (64 位 寄 
存 器 )， 以 区 别 是 对 32 位 操作 还 是 对 64 位 操作 。 








2.10 LEGv8 中 的 宽 立 即 数 和 地 址 的 寻 址 


虽然 将 所 有 LEGv8 指令 固定 为 32 位 长 简化 了 硬件 ， 但 有 时 使 用 32 位 或 者 更 多 位 数 的 
常量 或 地 址 更 加 方便 。 本 节 先 介绍 较 大 常量 ( 宽 立 即 数 ) 的 一 般 解决 方法 ， 然 后 描述 分 支 中 
指令 地 址 的 优化 措施 。 


2.10.1 宽 立 即 数 


常数 通常 比较 短 ， 能 够 用 12 位 的 字段 表示 , 但 有 时 也 会 很 大 。LEGv8 指令 集 提供 了 
MOVZ ( move wide with zeros) 和 MOVK ( move wide with keep) 指令 ， 专 门 用 于 设置 寄存 器 
中 的 16 位 常数 。MOV2 指令 将 寄存 器 中 剩余 的 位 全 部 置 0， 而 MOVK 指令 保持 剩余 的 位 不 
变 。 要 加 载 的 16 位 字段 由 指令 LSL 实现 ，LSL 后 面 的 数字 (0、16、32 或 48 ) 取决 于 需要 
64 位 双 字 8 的 哪个 象限 ?。 例 如 ， 下 面 这 些 指令 能 够 通过 两 条 32 位 指令 产生 一 个 32 位 的 常数 。 
图 2-18 给 出 了 指令 MoVz 和 MOVK 的 操作 过 程 。 

日 原 书 笔 误 ， 应 该 为 双 字 。- 译 者 注 
加 64 位 分 为 4 个 象限 ， 每 个 象限 16 位 ，0 对 应 第 一 个 象限 ， 即 从 最 低 有 效 位 开始 的 0 ~ 15 位 ，16 对 应 第 
二 个 象限 , 即 16 一 31 位 。 一 一 译 者 注 
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MOVZ X9,255 ,LSL 16 的 机 器 代码 是 : 
110100101] 01 | 0000 0000 1111 1111 T01001 


该 指令 执行 后 ， 寄 存 器 X9 中 的 常数 是 : 
0000 0000 0000 0000 | 0000 0000 0000 0000T0000 0000 1111 1111]0000 0000 0000 0000 


MOVK X9,255,LSL 0 的 机 器 代码 是 ; 
111100101 | 00 | 0000 0000 1111 1111 | 01001 
基于 上 一 条 指令 执行 后 xX9 中 的 值 ， 该 条 指令 执行 后 x9 中 新 的 常数 是 : 
[0000 0000 0000 0000T0000 0000 0000 0000T0000 0000 11111111T0000 0000 171717117111] 
2-18 ”MOV2 和 MOVK 指令 示例 。MOV2 指令 将 16 位 立即 数 常数 加 载 到 64 位 寄存 器 四 
个 象限 中 的 一 个 (最 左边 为 数据 最 高 有 效 位 )， 其 余 的 48 位 用 0 补 齐 。MOVK 指 
令 只 改变 寄存 器 的 16 位 ， 其 他 位 保持 不 变 
| 例题 | 加 载 32 位 常数 = 
将 下 面 这 个 64 位 常量 加 载 到 寄存 器 X19 中 的 LEGv8 汇编 代码 是 什么 ? 
00000000 00000000 00000000 00000000 00000000 00111101 00001001 00000000 
| 答案 | 首先 , 使 用 MoVz 加 载 16 ~ 31 位 ， 对 应 的 十 进 制 值 是 61: 
MOVZ X19, 61, LSL 16 // 61 decimal ~ 0000 0000 0011 1101 binary 
执行 上 面 的 指令 后 ， 寄 存 器 X19 的 值 为 
00000000 00000000 00000000 00000000 00000000 00111101 00000000 00000000 
下 一 步 是 插入 低 16 位 ， 对 应 的 十 进 制 值 是 2304: 
MOVK X19, 2304, LSL 0 // 2304 decimal = 00001001 00000000 


寄存 器 X19 中 的 最 终 值 就 是 所 需要 的 值 : 


00000000 00000000 00000000 00000000 00000000 00111101 00001001 00000000 






























































本 生 二 二 编 译 器 或 汇编 器 必须 把 大 的 常数 分 解 为 若干 小 的 常数 ， 然 后 再 合并 到 
一 个 寄存 器 中 。 正 如 你 想象 的 那样 ， 对 于 load/store 指令 中 的 存储 器 地 址 以 及 立即 数 指令 中 
的 常数 ， 立 即 数字 段 长 度 的 限制 都 可 能 带 来 问题 。 

因此 ，LEGv8 机 器 语言 的 符号 表示 不 再 受到 硬件 限制 ， 但 为 汇编 译 器 开发 者 所 选择 包 
括 的 内 容 所 限制 ( 见 2.12 节 )。 我 们 贴近 硬件 解释 计算 机 的 体系 结构 ， 但 需要 注意 的 是 ， 我 
们 所 使 用 的 汇编 器 的 增强 语言 ， 在 实际 处 理 器 中 是 不 存在 的 。9 


2.10.2 分支 中 的 寻 址 


LEGv8 跳 转 指令 * 采 用 最 简单 的 寻 址 方式 ， 使 用 B 型 LEGv8 指令 格式 ， 操 作 码 6 位， 
其 余 位 都 是 地 址 字段 。 因 此 ， 
B 10000  // go to location 10000,。 


可 以 汇编 为 下 面 的 格式 (实际 中 要 更 复杂 一 些 ， 我 们 后 面 将 介绍 ): 











5 10000。 
6 位 26 位 


日 实际 处 理 器 只 能 识别 二 进 制 的 机 器 码 ， 汇 编 语 言 是 机 器 码 的 符号 化 表示 。 一 一 译 者 注 
加 可 将 跳 转 视 作 一 种 特殊 的 分 支 ， 即 无 条 件 分 支 为 了 便于 区 分 将 无 条 件 分 支 称 为 跳 转 。 一 一 译 者 注 
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其 中 跳 转 指令 的 操作 码 值 为 5， 分支 地 址 为 10000e- 
和 跳 转 指 令 不 同 ， 条 件 分 支 指令 除 了 分 支 地 址 之 外 还 可 以 指定 一 个 操作 数 。 因 此 


CBNZ X19, Exit // go to Exit if X19*0 
被 汇编 为 下 面 的 指令 ， 其 中 只 有 19 位 用 于 指定 分 支 地 址 : 











181 Exit 19 
8 位 19 位 5 位 


对 于 条 件 分 支 指令 ， 这 种 格式 叫 作 CB 型 。( 依 赖 条 件 码 的 条 件 分 支 指令 也 采用 CB 型 ， 
但 是 指令 中 最 后 一 个 字段 用 于 选择 分 支 条 件 。) 

如 果 程序 的 地 址 只 能 放 在 19 位 的 字段 中 ， 这 意味 着 没有 程序 能 大 于 2”， 这 在 今天 来 说 
实在 太 小 ， 因 此 是 一 种 很 不 现实 的 选择 。 另 一 种 办 法 是 指定 一 个 寄存 器 ， 该 寄存 器 的 值 用 于 
和 分 支 地 址 的 偏 移 量 相 加 以 得 到 最 终 地 址 ， 这 样 分 支 指令 的 地 址 可 按 如 下 方式 计算 : 

程序 计数 器 = 寄存 器 内 容 + 分 支 地 址 偏 移 量 
这 个 求 和 结果 允许 程序 的 大 小 达到 2”， 并 且 仍 能 使 用 条 件 分 支 ， 从 而 解决 了 分 支 地 址 大 小 
的 问题 。 但 随 之 而 来 的 问题 是 ,使 用 哪个 寄存 器 ? 

答案 取决 于 条 件 分 支 是 如 何 使 用 的 。 条 件 分 支 在 循环 和 让 语句 中 都 “| PC 相对 寻 址 ， 一 种 好 址 
可 以 找到 ， 它 们 倾向 于 转 到 附近 的 指令 。 例 如 ， 在 SPEC 基准 测试 程序 “| 方式 , 将 PC 和 指令 中 的 
中 ， 大 概 一 半 的 条 件 分 支 转移 范围 都 在 16 条 指令 以 内 。 因 为 程序 计数 器 | 常数 相 加 作为 地 址 。 
(PC) 包含 当前 指令 的 地 址 ， 所 以 如 果 我 们 使 用 PC 作为 计算 地 址 的 寄存 
器 ， 就 可 转移 到 距 当前 指令 +28 个 字 的 地 方 。 几 乎 所 有 的 循环 和 让 语句 都 远 远 小 于 2" 个 字 ， 因 
此 PC 是 一 个 理想 的 选择 。 这 种 分 支 地 址 的 寻 址 方式 称 为 PC 相对 寻 址 (PC-relative addressing)。 

像 近期 大 多 数 计算 机 一 样 ，LEGv8 对 所 有 条 件 分 支 使 用 PC 相对 寻 址 ， 因 为 这 些 指令 的 
跳 转 目标 一 般 都 比较 接近 分 支 指令 本 身 。 另 一 方面 ， 分 支 和 链接 (branch-and-link) 指令 引发 
的 过 程 则 并 不 一 定 总 是 靠近 调用 者 ， 所 以 通常 使 用 其 他 寻 址 方式 。 因 此 ，LEGv8 体系 结构 通 
过 对 分 支 指令 以 及 分 支 和 链接 指令 采用 B 型 指令 格式 ， 为 过 程 调 用 提供 长 地 址 。 

因为 LEGv8 的 所 有 指令 都 是 4 字 节 长 ， 所 以 将 PC 相对 寻 址 的 地 址 设计 成 字 地 址 而 不 是 
字 节 地 址 ， 从 而 可 以 扩展 分 支 转移 的 范围 。 通 过 将 字段 解释 成 相对 字 地 址 而 不 是 相对 字 节 地 
址 ，19 位 的 地 址 字段 所 指示 的 转移 范围 扩大 了 4 倍 : 当前 PC + 1MB。 同 样 ， 分 支 指令 的 26 
位 字段 也 是 字 地 址 ， 即 表示 28 位 字 节 地 址 。 

无 条 件 分 支 ( 即 跳 转 指令 ) 也 采用 PC 相对 寻 址 ， 这 意味 着 转移 范围 是 当前 PC 值 + 128MB。 


| 例题 | 在 机 器 语言 中 描述 分 支 的 偏 移 量 
假设 2.7.1 节 的 while 循环 被 编译 成 下 面 的 LEGv8 汇编 代码 : 


Loop :LSL X10,X22 ,#3 /4/ Temp reg X10 = 8 * i 
ADD X10,X10,X25  // X10 = address of Save[i] 
LDUR X9, CX10 ,#0] // Temp reg X9 = save[i] 
SUB X11,X9,X24 // X11 = Save[i] 一 k 
CBNZ X11, Exit // go to Exit if save[i] = k (X11#0) 
ADDI X22 .X22 .#1 中 
B Loop 1/ go to Loop 
Exit: 


假设 loop 的 起 始 地 址 是 内 存 的 80000 处 ,那么 该 循环 的 LEGv8 机 器 代码 是 什么 ? 




















117 











118 

















119 














120) 








82 需 2 草 





上 答案 | 汇编 后 的 指令 及 其 地 址 如 下 : 





























80000 1691 0 -a 7 
80004 | 1112 25 0 0 | 
80008 | 1896 o | "0 10 9 
80012 1624 24 0 
80016 181 3 I 
80020 580 1 i 信 2 
80024 5 芽 3 

80028 gy | 














注意 LEGv8 指令 采用 字 节 编 址 ， 所 以 相 邻 的 字 地 址 相差 4 (一 个 字 中 的 字 节 数 )， 并 且 分 支 
指令 将 其 地 址 字段 乘 以 4， 即 一 条 LEGv8 指令 的 字 节 数 。 第 5 行 的 CBN2 指令 将 3 个 字 即 
12 字 节 加 到 下 一 条 指令 地 址 上 ， 指 明 转移 目标 在 相对 下 一 条 指令 ( 12+80016 ) 的 范围 内 

而 不 是 使 用 完整 的 目标 地 址 ( 80028 )。 最 后 一 行 的 分 支 指令 采用 相似 的 计算 方法 ， 实 现 向 后 
( 回 退 ) 跳 转 至 (-24 + 80024 )， 对 应 于 Loop 标签 。 所 


奏折 和 和 大 多 数 条 件 分 支 都 转移 到 一 个 附近 的 位 置 ， 但 有 时 也 会 转移 很 远 ， 超 
过 条 件 分 支 指令 的 19 位 地 址 字段 可 以 表示 的 范围 。 汇 编 器 的 解决 方法 和 处 理 大 地 址 或 大 党 
数 的 方法 一 样 : 插入 一 个 跳 转 指令 以 转移 到 目标 地 址 ， 并 将 条 件 取 反 以 便 由 分 支 决定 是 否 跳 
过 该 跳 转 指令 。 
| 例题 | 远 距 离 的 分 支 
假设 寄存 器 X19 等 于 0 时 进行 分 支 
CBZ X19, L1 
用 两 条 指令 替换 上 面 的 指令 ， 并 提供 更 远 的 转移 距离 。 
| 答案 | 可 用 下 面 的 指令 替换 短 地 址 的 条 件 分 支 指令 : 


CBNZ X19, L2 
B 11 











I: 





2.10.3 LEGv8 寻 址 模式 总 结 


多 种 不 同 的 寻 址 方式 一 般 统称 为 寻 址 模式 ( addressing mode)， 寻 址 模 起 :根据 对 操作 数 
图 2-19 给 出 了 每 种 寻 址 模式 下 操作 数 如 何 被 识别 。LEGv8 的 寻 址 模 | 或 地 址 的 使 用 不 同 而 加 以 


式 如 下 所 示 : 区 分 的 多 种 寻 址 方式 中 的 
。 立即 数 姓 址 ， 操 作 数 是 位 于 指令 自身 中 的 常数 。 本 
。 穿 存 器 好 址 ， 操 作 数 是 寄存 器 ， 


日 基 址 寻 址 或 偏 移 寻 址 ， 操 作 数 在 内 存 中 ， 其 地 址 是 一 个 寄存 器 和 指令 中 常数 的 和 。 

® PC 相对 寻 址 ， 地 址 是 PC 与 指令 中 常数 的 和 。 
2.10.4 机 器 语言 解码 

有 时 必须 通过 逆向 工程 将 机 器 语言 恢复 为 原始 的 汇编 语言 ， 比 如 检查 “内 核 转 储 ”( core 
dump)。 

图 2-20 描述 了 LEGv8 机 器 语言 中 操作 码 字段 的 编码 。 该 图 可 用 于 汇编 语言 和 机 器 语言 
之 间 的 手工 翻译 。 














蕴 侠 : 计算 机 的 语言 
1. 立 即 数 寻 址 
2. 寄 存 器 寻 址 
op |Rm me Rn | Rd 寄存 器 




















op Address | op Rn | Rt 











4.PC 相 对 寻 址 











图 2-19 LEGv8 的 四 种 寻 址 模式 。 阴 影 部 分 为 操作 数 。 模 式 3 的 操作 数 在 内 存 中 ， 模 式 2 的 操 
作 数 是 寄存 器 。 注 意 ，load 和 store 有 字 节 、 半 字 
数 是 指令 自身 的 一 部 分 。 模 式 4 要 寻 址 的 指令 在 内 存 中 ， 
位 ) 与 PC 相 加 获得 需要 的 地 址 。 注 意 ， 

















一 种 操作 可 





加 法 可 以 使 用 立即 数 寻 址 (ADDI ) 或 寄存 器 寻 址 (ADD) 


字 或 双 字 多 种 版 本 。 模 式 1 的 操作 
将 左 移 2 位 后 的 长 地 址 (16 
能 可 以 使 用 多 种 寻 址 模式 。 例 如 ， 




























































































000101 
00111000000 
_| 00111000010 
01010100 
1011001000 
1101001000 
01111000000 
01111000010 | 
| 10001010000 | 
10001011000 
1001000100 10 1160 1161 型 
1001001000 10 1168 1169 型 
100101 | 6 1184 1215 B 型 
10101010000 1 | 1360 R 型 
10101011000 11 | 1368 R 型 
1011000100 10 | 1416 1417 型 
10110100 8 1440 1447 CB 型 
10110101 8 1448 1455 CB 型 
10111000000 | 11 | 1472 D 型 
LDURSW 10111000100 11 __ 1476 D 型 
STXR 11001000000 11 | 1600 D 型 








图 2-20 LEGv8 指令 解码 - 操作 码 的 数值 可 以 被 映射 到 最 宽 (位 数 最 多 ) 的 操作 码 字 段 
的 空间 上 。 通过 检查 指令 前 11 位 ， 


就 能 确定 这 条 指令 的 功能 
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| _LDXR | 11001000010 _ 16i 
EOR 11101010000 1616 
SuB 11001011000 | 11 1624 
SUBI _1101000100 | 10 2672 | e878 | 
MOVZ 110100101 9 1684 1687 
LSR 11010011010 | 11 1690 
LSL 11010011011 11 1691 
BR | 11010110000 | 11 _1712 
ANDS 11101010000 11 1872 
SUBS 11101011000 11 1880 
SUBIS 1111000100 | 10 1928 | 1929 
ANDIS 1111001000 | 10 1936 | 1937 
| MOVk _ 411100101 | 9 1940 1943 
STUR 11111000000 | 畔 1984 
LDUR 11111000010 | 11 | 1986 | 中 
图 2-20 ( 续 ) 
| 例题 | 机 器 码 解 码 = 
下 面 这 条 机 器 指令 对 应 的 汇编 语言 语句 是 什么 ? 
8b0OF0013,., 


| 答案 | 首先 将 十 六 进 制 转换 为 二 进 制 : 

1000 1011 0000 1111 0000 0000 0001 0011 
要 解释 这 些 二 进 制 位 ， 就 要 先 确定 指令 的 格式 类 型 。 因 此 ， 首 先 要 找到 操作 码 字 段 。 问 题 在 
于 指令 格式 不 同 ， 操 作 码 的 位 数 也 从 6 位 到 11 位 不 等 。 由 于 操作 码 具有 唯一 性 ， 因 此 可 以 
通过 检查 11 位 的 操作 码 中 有 多 少 位 与 较 短 的 操作 码 匹配 来 识别 。 

例如 ， 下 面 这 条 分 支 指令 B 使 用 6 位 操作 码 ， 值 如 下 : 

00 0101 
如 果 以 11 位 操作 码 来 衡量 ， 那 么 这 6 位 操作 码 占用 了 码 值 从 

00 0101 00000 
到 

00 0101 11111 
的 所 有 11 位 操作 码 。 

对 于 在 这 个 范围 内 的 任意 11 位 操作 码 ， 如 

00 0101 00100 
这 个 操作 码 将 和 上 面 分 支 指令 的 6 位 操作 码 产 生 冲突 。 

图 2-20 按照 操作 码 的 数值 大 小 列 出 了 LEGv8 的 指令 ,给 出 了 11 位 操作 码 的 有 效 取 值 
范围 。 例 如 ， 分 支 指令 的 操作 码 范围 是 160 到 191 (十 进 制 表示 的 操作 码 数值 )。 要 识别 一 个 
操作 码 ， 只 需 将 指令 的 前 11 位 转化 成 十 进 制 形式 ， 然 后 查 表 确 定 指令 及 其 格式 。 

该 例 中 ， 假 设 操 作 码 字段 是 10001011000w。， 即 1112,e。。 根 据 表 2-20， 该 操作 码 对 应 于 
使 用 B 型 指令 格式 的 加 法 (ADD) 指令 。 因 此 ， 这 条 二 进 制 指令 可 以 被 分 解 为 下 面 这 些 字段 : 
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opcode Rm Shamt Rn Rd 
10001011000 01111 000000 ‘00000 10011 


指令 的 剩余 部 分 可 以 根据 其 他 字段 的 值 进一步 译 码 。Rm 字段 的 值 是 15，Rn 是 0，Rd 


是 19 ( shamt 字段 没有 用 到 )。 这 些 数字 分 别 代表 寄存 器 X15、X0 和 X19。 现 在 可 以 给 出 对 
应 的 汇编 指令 : 








ADD X19,X0,X15 


图 2-21 给 出 了 LEGv8 的 所 有 指令 格式 。 图 2-1 给 出 了 本 章 涉及 的 LEGv8 汇编 语言 。 下 
一 章 将 介绍 针对 实数 的 乘 、 除 和 其 他 算术 运算 的 指令 。 








字段 大 小 6~11 位 | 5~10 位 | 5~4 位 | 2 位 5 位 





























5 位 ”| 所 有 的 LEGv8 指 令 都 是 32 位 长 
R 型 R | opcode Rm shamt Rn Rd | 算术 运算 指令 格式 
型 1 | opcode immediate Rn Rd 立即 数 格式 
D 型 |D| opeode address | op2 Rn Rt ”| 数据 传输 格式 
B 型 B | opcode address 无 条 件 分 支 格式 
CB 型 CB| opcode address Rt 条 件 分 支 格式 
IW 型 IW| opcode immediate Rd 宽 立 即 数 格式 























2-21 LEGv8 指令 格式 


辆 三 一 种 让 硬件 可 以 并 行 地 确认 指令 格式 的 方法 是 ， 为 硬件 提供 一 个 只 读 存储 器 ， 其 
地 址 空间 与 最 大 的 操作 码 匹 配 ， 其 内 容 告诉 硬件 具体 的 指令 操作 。 因 此 ，11 位 操作 码 的 指令 
(如 ADD) 在 该 只 读 存储 器 中 有 唯一 的 入 口 ， 而 6 位 操作 码 的 指令 (如 B) 则 有 多 个 宛 余 的 备 
份 。 事 实 上 ，B 指令 有 20/25= 25 = 32 个 入 口 。 比 只 读 存储 器 更 高 效 且 又 能 实现 相同 功能 的 
硬件 结构 是 可 编程 逻辑 阵列 (Programmable-Logic Array，PLA)。PLA 能 够 修改 地 址 译 码 器 ， 
使 得 操作 码 无 论 多 大 都 只 有 单一 入 口 ( 参 见 附录 B)。 








日 ”等 价 于 无 条 件 跳 转 。 一 一 译 者 注 
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2.11 并行 与 指令 : 同步 


若 任务 间 相 互 独立 ， 则 任务 的 吕 海 执行 是 比较 容易 的 。 但 任务 | 数据 竞争 : 若 来 自 不 同 线 
之 间 往往 需要 相互 协作 ， 这 种 协作 通常 意味 着 某 些 任务 要 写 的 值 正 和 人 生生 全 让 全 朋 
是 其 他 任务 需要 读 取 的 。 只 有 知道 写 操作 何 时 完成 ， 其 他 任务 才能 | 不 和 下 全 
安全 地 读 取 数据 。 因 此 ， 任 务 之 间 需 要 同步 。 若 不 同步 ， 就 可 能 产 | 操作， 那么 这 两 个 访 存 操 
生 数 据 竞争 ( data race)， 即 程序 运行 结果 根据 事件 发 生 的 不 同情 况 | 作 就 会 形成 数据 竞争 ， 

而 变化 。 

例如 ， 第 1 章 所 提 到 的 8 个 记者 合作 写 一 个 故事 的 例子 。 假 设 一 个 记者 在 写 总 结 之 前 需 
要 阅读 之 前 所 有 的 章节 ， 那 么 该 记者 必须 知道 其 他 人 何 时 完成 任务 ， 这 样 他 就 不 用 担心 总 结 
写 好 后 其 他 章节 还 有 修改 。 因 此 ， 这 些 记 者 需要 很 好 地 同步 各 个 章节 的 撰写 和 阅读 过 程 ， 这 
样 总 结 才 能 和 前 面 章节 中 的 内 容 保 持 一 致 。 

在 计算 中 ,同步 机 制 通常 和 用 户 级 的 程序 或 例 程 一 起 建立 ,依赖 于 硬件 提供 的 同步 
指令 。 本 节 我 们 重点 关注 加 锁 和 解锁 同步 操作 。 用 加 锁 和 解锁 可 以 直接 建立 区 域 ， 即 互 斥 
(mutual exclusion) 区 ， 仅 允许 单个 处 理 器 操作 。 更 复杂 的 同步 机 制 的 实现 也 与 此 类 似 。 

在 多 处 理 器 中 实现 同步 的 关键 是 需要 一 组 硬件 原 语 ， 能 够 对 一 个 存储 地 址 进行 原子 
读 和 原子 写 ， 读 写 之 间 其 他 任何 操作 都 不 得 插入 和 干预。 若 没有 这 样 的 硬件 原 语 ， 那 么 建 
立 基本 同步 机 制 的 代价 将 会 变 得 很 高 ， 并 且 这 种 代价 会 随 着 处 理 器 数量 的 增加 而 变 得 更 为 
离谱 。 

建立 基本 硬件 原 语 有 若干 可 选 的 方案 ,这 些 方案 都 可 以 提供 对 一 个 存储 地 址 进行 原子 读 
和 原子 写 的 能 力 ， 并 能 用 某 种 方法 辨别 一 个 读 / 写 操作 是 否 为 原子 操作 。 通 常 ， 体 系 结构 架 
构 师 并 不 希望 用 户 直 接 使 用 这 些 基本 的 硬件 原 语 ， 而 是 希望 系统 程序 员 用 这 些 原 语 来 建立 同 
步 库 (建立 同步 库 的 过 程 通常 非常 复杂 )。 

下 面 介绍 一 种 硬件 原 语 以 及 如 何 用 这 种 原 语 建立 基本 的 同步 原 语 。 原 子 交换 ( atomic 
exchange 或 atomic swap) 是 建立 同步 操作 的 一 种 典型 操作 ， 该 原 语 将 寄存 器 中 的 一 个 值 和 存 
储 器 中 的 一 个 值 进 行 互 换 。 

为 了 展示 如 何 通过 该 原 语 建立 同步 原 语 ， 我 们 假定 需要 建立 一 个 简单 的 锁 ， 其 数值 为 0 
时 表示 解锁 ， 为 1 时 表示 加 锁 ?。 处 理 器 尝试 对 镇 单元 加 锁 的 方法 是 ， 用 一 个 寄存 器 中 的 1 与 
该 锁 对 应 的 存储 地 址 的 值 进 行 交换 。 若 交换 指令 返回 的 值 为 ! >， 则 表明 该 锁 已 被 其 他 处 理 器 
占用 。 若 返回 值 为 0， 则 表示 锁 是 自由 的 ， 可 对 其 加 锁 。 后 一 种 情况 下 ， 加 锁 成 功 ， 锁 值 同 
样 要 被 修改 为 1， 以 防止 其 他 同样 获得 返回 值 0 的 处 理 器 竞争 占用 。 

例如 ， 假 定 有 两 个 处 理 器 试图 同时 进行 交换 操作 ， 这 种 竞争 可 以 被 阻止 。 因 为 一 个 处 理 
器 先进 行 交 换 ， 返 回 0 ， 而 第 二 个 处 理 器 进行 交换 时 ， 返 回 值 就 变 成 了 1。 使 用 交换 原 语 实 
现 同 步 的 关键 是 操作 的 原子 性 : 交换 操作 是 不 可 切 分 的 ， 同 时 发 生 两 个 交换 操作 会 由 硬件 进 
行 排序 。 因 此 ， 在 这 种 模式 下 ， 对 两 个 试图 设置 同步 变量 的 处 理 器 而 言 ， 让 它们 都 认为 同时 
成 功 设 置 了 同步 变量 是 不 可 能 的 。 

实现 单个 的 原子 存储 器 操作 给 处 理 器 设计 带 来 了 新 挑战 ， 因 为 这 要 求 存储 器 的 读 、 写 操 
作 都 要 由 单个 的 不 可 被 中 断 的 指令 完成 。 

















日 该 锁 存 放 在 一 个 存储 单元 中 .因此 有 一 个 存储 地 址 与 其 对 应 。 一 一 译 者 注 
马 锁 的 当前 值 -: 一 一 译 者 注 
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一 种 可 行 的 方法 是 采用 指令 对 ， 由 第 二 条 指令 返回 一 个 值 ， 表 明 这 对 指令 是 否 按 原子 性 
执行 。 假 如 其 他 处 理 器 的 操作 都 是 在 这 对 指令 之 前 或 之 后 执行 ,那么 这 对 指令 就 是 有 效 的 原 
子 操作 。 因 此 ， 若 一 个 指令 对 是 原子 的 ， 那 么 其 他 处 理 器 不 能 改变 这 对 指令 之 间 的 值 。 

在 LEGv8 中 ， 这 对 指令 包括 一 条 叫 作 load exclusive register (IDXR， 互 斥 取 数 ) 的 特殊 
取 数 指令 和 一 条 叫 作 store exclusive register ( STXR， 互 斥 存 数 ) 的 特殊 存 数 指令 。 这 两 条 指 
令 按 顺序 使 用 : 如 果 LDXR 指令 所 指定 的 存储 地 址 ( 锁 ) 的 内 容 在 具有 相同 地 址 的 STXR 指 
令 执 行 前 已 被 改变 ,那么 STXR 指令 失败 ， 不 能 将 值 写 人 该 存储 地 址 。STXR 指令 包括 两 个 
功能 , 一 是 将 存储 地 址 的 内 容 写 入 寄存 器 中 ， 二 是 在 成 功 时 将 另 一 个 寄存 器 的 内 容 修改 为 0， 
失败 时 则 修改 为 1。 因 此 ，STXR 指令 中 需要 定义 三 个 寄存 器 : 一 个 保存 地 址 ， 一 个 指明 原 
子 操作 成 功 还 是 失败 ， 最 后 一 个 保存 成 功 后 要 写 人 存储 器 的 值 。 因 为 LDXR 指令 返回 锁 单 元 
的 原始 值 ，STXR 指令 仅 在 执行 成 功 时 返回 0， 所 以 下 面 的 指令 序列 实现 了 在 存储 器 中 的 原 
于 交换 。 存 储 器 地 址 由 X20 指出 。 

again:LDXR X10,[X20,#0] 1/ load exclusive 


STXR X23, X9, [X20] // store exclusive 
CBNZ XxX9.again // branch if store fails 
ADD  X23,XZR,X10 // put loaded value in X23 


任何 时 候 ， 若 有 处 理 器 插 人 并 修改 了 IDXR 和 STXR 两 条 指令 之 间 存 储 器 的 值 ，STXR 
指令 就 返回 1 (在 X9 中 )， 导 致 这 段 指令 序列 重新 执行 。 该 指令 序列 最 后 ， 寄 存 器 X23 中 的 
内 容 和 X20 指向 的 存储 地 址 ( 锁 ) 的 值 实现 了 原子 交换 。 

也 虽然 我 们 在 多 处 理 器 同步 中 讨论 原子 操作 ， 但 实际 上 原子 交换 对 于 操作 系统 处 理 
单个 处 理 器 上 的 多 个 进程 也 是 十 分 有 用 的 。 为 了 确保 单 处 理 器 中 没有 任何 干扰 ， 如 果 处 理 器 
在 两 个 指令 之 间 做 上 下 文 切换 ， 也 会 造成 STXR 指令 的 失败 ( 见 第 5 章 )。 

贱 盘 | 互 斤 取 数 / 存 数 机 制 的 优点 在 于 ， 可 以 通过 它们 来 构造 其 他 同步 原 语 ， 如 原子 比 
较 和 交换 ， 以 及 原子 取 后 递增 等 。 这 些 同步 原 语 被 用 在 一 些 并 行 编程 模型 中 。 这 些 同步 原 语 
的 实现 需要 在 LDXR 和 STXR 指令 间 插 入 更 多 的 指令 ， 但 不 需要 太 多 。 

因为 任何 试图 对 互 斥 取 的 地 址 ?进行 修改 的 存 数 操作 或 任何 异常 ， 都 会 导致 之 后 的 互 斥 
存 数 操作 失败 ， 因 此 在 选择 LDXR 和 STXR 之 间 插 入 的 指令 时 要 格外 注意 。 特 别 需要 注意 的 
是 ， 只 有 寄存 器 - 寄存 器 指令 允许 被 安全 地 使 有用。 否则， 处 理 器 可 能 由 于 重复 的 页 错误 而 
始终 无 法 完成 STXR 指令 ， 而 导致 死 锁 状态 产生 。 另 外 ， 互 斥 取 数 和 互 斤 存 数 之 间 的 指令 数 
要 尽 可 能 少 ， 从 而 尽量 减少 由 不 相关 的 事件 或 者 处 理 器 竞争 导致 互 斥 存 数 操作 频繁 失败 的 
概率 。 

风骨 上 面 的 代码 实现 了 原子 交换 ， 而 下 面 这 段 代码 可 以 更 高 效 地 在 X20 寄存 器 所 指 
的 地 址 处 获得 锁 ，0 表示 锁 空间， 可 以 被 使 用 ，1 代表 锁 已 被 占用 。 


ADDI X11,X2R,#1 1/ copy locked value 
again: LDXR X10,[X20,#0] 1/ 1oad exclusive to read lock 
CBNZ X10, again // check if it is 0 yet 
STXR X11, xX9. [X20] // attempt to store new value 
BNEZ X9,again /1/ branch if store fails 
释放 锁 可 以 通过 一 个 普通 的 存 数 指令 写 入 0 实现 : 
STUR XZR, [x20,#0] /1/ free lock by writing 0 


日 即 锁 。 
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2.12 ”翻译 并 启动 程序 


本 节 描 述 了 将 一 个 存储 在 外 存 (磁盘 或 闪存 ) 某 文件 中 的 C 程序 转换 为 计算 机 上 可 执行 
程序 的 四 个 步骤 。 图 2-22 展示 了 翻译 中 的 各 个 层次 。 虽 然 有 些 系统 可 能 将 这 些 步骤 合并 以 
减少 翻译 的 时 间 ， 但 实际 上 程序 都 要 经 过 这 四 个 逻辑 阶段 (才能 被 执行 )。 本 节 将 对 这 些 翻 
译 层次 进行 描述 。 





C 语 言 程序 
















汇编 语言 程序 





目标 模块 : 机 器 语言 模块 





目标 库 : 库 例 程 ( 机 器 语言 ) 








可 执行 代码 :机 器 语言 程序 





存储 器 


图 2-22 C 语言 的 翻译 层次 。 用 高 级 语言 编写 的 程序 首先 被 编译 为 汇编 语言 程序 ， 然 后 被 汇编 
为 机 器 语言 组 成 的 目标 模块 。 链 接 器 将 多 个 模块 和 库 例 程 组 合 在 一 起 解析 所 有 的 引用 。 
加 载 器 将 机 器 代码 加 载 到 内 存 的 适当 位 置 供 处 理 器 执行 。 为 了 加 速 翻译 过 程 ， 某 些 步 
又 被 跳 过 或 和 其 他 步骤 组 合 在 一 起 。 一 些 编译 器 直接 产生 目标 模块 ， 一 些 系统 使 用 带 
链接 功能 的 加 载 器 直接 完成 后 两 步 。 为 了 识别 文件 类 型 ，UNIX 使 用 文件 的 后 级 ，x.c 
代表 C 源 文件 ，x.s 表示 汇编 文件 ，x.o 表示 目标 文件 ，x.a 表示 静态 链接 库 ，x,so 表示 
动态 链接 库 ，a.out 默认 情况 下 表示 可 执行 文件 。MS-DOS 使 用 后 级 .C、.ASM、.OBJ、 
.LIB、.DLL 以 及 .EXE 来 达到 同样 的 效果 


2.12.1 编译 器 


编译 器 将 C 程序 转换 成 机 器 能 理解 的 符号 形式 的 汇编 语言 程序 。 相 比 于 汇编 语言 ， 高 级 
语言 编写 程序 的 代码 行 数 少 得 多 ， 所 以 程序 员 的 生产 率 更 高 。 

1975 年 ， 因 为 存储 器 容量 非常 小 并 且 编译 器 效率 不 高 ， 很 多 操 。 | 汇编 语言 ， -种 御 号 放言 
作 系 统 和 汇编 器 都 用 是 用 汇编 语言 ( assembly language) 编写 的 。 但 ”| 能 被 翻译 成 二 进 制 的 机 器 
随 着 单个 DRAM 芯片 存储 容量 呈 百 万 倍 的 增长 ， 程 序 员 对 程序 大 小 | 语言 。 
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的 忧虑 极 大 地 减少 了 ， 并 且 今 天 优化 的 编译 器 能 够 产生 出 几乎 与 汇编 语言 专家 所 写 的 程序 一 
样 好 的 汇编 程序 ， 对 于 大 型 程序 有 时 甚至 效果 更 好 。 


2.12.2 汇编 器 


汇编 语言 对 于 高 层次 软件 是 一 个 接口 ， 因 此 汇编 器 也 能 够 处 理 。 | 区 捐 令 ， 江 六 语言 指 信 的 
一 些 机 器 语言 指令 的 常见 变种 ， 就 像 这 些 变 种 本 身 就 是 指令 一 样 。 | 一 种 常见 的 变形 ， 经 常 被 
硬件 不 需要 实现 这 些 指令 ， 然 而 它们 在 汇编 语言 中 的 出 现 可 以 简化 | 看 作 一 条 汇编 指令 。 
程序 转换 和 编程 的 过 程 。 这 类 指令 称 为 伪 指 令 (pseudoinstruction)。 

如 前 所 述 ，LEGv8 硬件 确保 寄存 器 XZR( X31) 总 为 0， 即 任何 时 候 使 用 寄存 器 XZR， 
其 提供 的 值 都 是 0， 并 且 程 序 员 不 能 修改 寄存 器 XZR 的 值 。 寄 存 器 X2R 可 以 用 于 生成 将 一 
个 寄存 器 中 的 内 容 复 制 到 另 一 个 中 的 汇编 指令 。 因 此 ， 即 使 LEGv8 机 器 语言 中 不 存在 下 面 
这 条 指令 ，LEGv8 汇编 器 也 能 够 识别 它 : 

MOV X9,X10 // register X9 gets register X10 
汇编 器 将 这 条 汇编 语言 指令 转换 成 如 下 功能 等 价 的 机 器 语言 : 

ORR X9,XZR,X10 // register X9 gets 0 OR register X10 

LEGv8 汇编 器 也 将 比较 指令 CMP ( compare) 转换 成 一 条 减法 指令 ， 该 减法 指令 用 于 设 
置 条 件 码 ， 并 将 XZR 寄存 器 设置 为 目的 寄存 器 。 因 此 

CMP X9.X10 // compare X9 to X10 and set condition codes 
转换 成 

SUBS XZR,X9,X10 // use X9 - X10 to set condition codes 

而 一 个 到 远 距离 的 分 支 指令 可 以 被 拆 成 两 个 分 支 指令 。 如 前 所 述 ，LEGv8 汇编 器 允许 将 
大 常量 加 载 到 一 个 寄存 器 中 ， 不 用 考虑 立即 数 指令 的 大 小 限制 。 因 此 ， 汇 编 器 可 以 接受 取 地 
址 指令 LDA (load address) 并 将 其 转换 成 必要 的 指令 序列 。 最 终 ， 通 过 确定 程序 员 想 要 的 指 
令 变种 可 以 简化 指令 集 。 例 如 ， 对 于 算术 和 逮 辑 指令 中 的 常量 ，LEGv8 汇编 器 不 需要 程序 员 
明确 指出 指令 中 立即 数 的 版 本 ， 汇 编 器 可 以 产生 适当 的 操作 码 。 因 此 ， 

AND X9,X10,#15 // register X9 gets X10 AND 15 
转换 成 

ANDI X9,X10,#15 // register X9 gets X10 AND 15 

我 们 在 指令 名 中 加 上 “1” 以 提醒 读者 ,该 指令 的 操作 码 和 指令 格式 均 不 同 于 无 立即 数 
操作 数 的 AND 指令 。 

总 的 来 说 ， 相 比 于 硬件 真正 实现 的 指令 ， 伪 指令 为 LEGv8 提供 了 更 为 丰富 的 汇编 语言 
指令 集 。 如 果 你 打算 写 汇编 程序 ， 请 使 用 伪 指 令 来 简化 任务 。 为 了 理解 LEGv8 体系 结构 并 
获得 最 好 的 性 能 ， 无 论 如 何 ， 请 学 习 图 2-1 和 图 2-20 中 真正 的 LEGv8 指令 。 

汇编 器 同样 接受 不 同 基数 的 数字 。 除 了 二 进 制 和 十 进 制 ， 通 常 还 接受 比 二 进 制 更 为 简明 
而 又 容易 转化 为 位 模式 的 基数 。LEGv8 汇编 器 可 以 使 用 十 六 进 制 。 

这 种 特性 相当 方便 ， 但 是 汇编 器 的 主要 任务 是 汇编 获得 机 器 代码 。 汇 编 器 将 汇编 语言 程序 
转换 成 目标 文件 ， 该 文件 包括 机 器 语言 指令 、 数 据 ， 以 及 将 指令 正确 放 人 内 存 所 需要 的 信息 。 

为 了 产生 汇编 语言 程序 中 每 条 指令 对 应 的 二 进 制 表示 ， 汇 编 器 必须 确定 所 有 标号 对 应 的 
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地 址 。 汇 编 器 将 分 支 和 数据 传输 指令 中 用 到 的 标号 都 放 人 一 个 符号 | 符号 表 : 一 个 用 来 匹配 标 
表 (symbol table) 中 。 正 如 你 所 想 的 ， 这 个 表 包 含 了 程序 中 出 现 的 | 签名 和 指令 所 在 的 内 存 地 
符号 (标号 ) 和 地 址 对 。 Eee 
UNIX 系统 中 的 目标 文件 通常 包含 以 下 六 个 不 同 的 部 分 : 
。 目标 文件 头 ， 描 述 目标 文件 其 他 部 分 的 大 小 和 位 置 。 
。 代码 段 ， 包 含 机 器 语言 代码 。 
。 替 态 数据 段 ， 包 含 在 程序 生命 周期 内 分 配 的 数据 。(UNIX 系统 允许 程序 使 用 存在 于 束 
个 程序 中 的 静态 数据 ， 也 允许 随 程序 的 需要 而 增长 或 减少 的 动态 数据 。 见 图 2-14.) 
。 重 定位 信息 ， 标 记 了 一 些 在 程序 加 载 进 内 存 时 依赖 于 绝对 地 址 的 指令 和 数据 。 
。 符 号 表 ， 包 含 剩余 未 定义 的 标签 ， 如 外 部 引用 。 
。 调试 信息 ， 包 含 一 份 简明 描述 ， 说 明 模块 如 何 编译 ， 以 便 调试 器 能 够 将 机 器 指令 关联 
到 C 源 文件 ， 并 使 数据 结构 也 变 得 可 读 。 
下 一 小 节 将 描述 如 何 链接 已 经 汇编 完成 的 例 程 / 子 程序 ， 如 库 程序 。 
击 诅 ;和 前 面 提 到 的 ADD、&ADDI 指令 一 样 ， 完 整 的 ARMv8 指令 集中 没有 ANDI 指令 
(即使 其 中 一 个 操作 数 是 立即 数 )。 指 令 集中 只 有 AND， 由 汇编 器 负责 选择 适当 的 操作 码 。 为 
便于 教学 ，LEGYV8 仍然 用 不 同 的 助 记 符 区 分 这 两 种 不 同 的 情况 。 


2.12.3 ”链接 器 


到 目前 为 止 我 们 所 描述 的 内 容 表明 ， 对 于 一 个 程序 中 任意 一 行 | 链接 器 ;也 多角 村 坟 可 吕 。 
代码 中 的 任意 一 个 修改 ， 都 需要 重新 编译 和 汇编 整个 程序 。 全 部 重 ”| 是 一 个 系统 程序 ， 反 各 个 
新 翻译 是 对 计算 资源 的 严重 浪费 。 这 种 重复 对 于 标准 库 程序 尤为 浪 | 天 衬 江 坟 的 机 器 语言 各 
费 ， 因 为 程序 员 要 编译 和 汇编 那些 定义 后 几乎 从 未 变化 的 过 程 。 另 | 委 全 全 丰 二 过 本 本 
一 种 方法 是 单独 编译 和 汇编 每 个 过 程 ， 从 而 某 一 行 代码 的 改变 只 需 “| 着 。 
要 编译 和 汇编 一 个 过 程 。 这 种 方法 需要 一 个 新 的 系统 程序 ， 称 为 链 
接 编辑 器 ( link editor) 或 链接 器 (linker)， 把 所 有 独立 汇编 的 机 器 语言 程序 “缝合 ”在 一 
链接 器 有 用 的 原因 在 于 ， 对 代码 打 补丁 要 比重 编译 和 重 汇编 块 得 多 。 

链接 器 的 工作 分 为 三 个 步 又 : 

1 将 代码 和 数据 模块 象征 性 地 放 信 内存。 

2. 决定 数据 和 指令 标签 的 地 址 。 

3, 修补 内 部 和 外 部 引用 。 

链接 器 使 用 每 个 目标 模块 中 的 重 定位 信息 和 符号 表 ， 来 解析 所 有 未定 义 的 标签 。 这 种 引 
用 发 生 在 分 支 指令 和 数据 寻 址 处 ， 因 此 ， 这 个 程序 的 工作 非常 像 一 个 编辑 器 ， 寻找 所 有 旧地 
址 并 用 新 地 址 取代 它们 。 编 辑 是 “链接 编辑 器 ”或 (简写 ) 链接 器 的 原始 名 字 。 

如 果 所 有 外 部 引用 都 解析 完成 链接 器 接着 确定 每 个 模块 将 要 
占用 的 内 存 位 置 。 回 顾 图 2-14 描述 的 LEGv8 在 内 存 中 为 程序 和 数 | 可 执行 文件 : 一 个 具有 目标 
据 分 配 空间 的 方式 。 因 为 文件 是 单独 汇编 的 ， 所 以 汇编 器 无 法 知道 | 文件 格式 的 功能 程序 不 
一 个 模块 的 指令 和 数据 相对 于 其 他 神志 而 言 会 被 放 到 哪里 。 当 链接 | 名人 本 多 引用 记 
器 将 一 个 模块 放 到 内 存 中 时 ， 所 有 绝对 引用 ， 即 与 寄存 器 无 关 的 内 | 2 人 和 个 人 
存 地 址 ， 必 须 重 定位 以 反映 其 真实 地 址 。 念 这 些 信息 ， 可 能 包含 加 

链接 器 生成 可 以 在 计算 机 上 运行 的 可 执行 文件 (executable file)。 | 载 器 所 需 的 重 定位 信息 。 





但 
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通常 ， 这 个 文件 与 目标 文件 具有 相同 的 格式 ， 但 是 它 不 包含 未 解决 的 引用 。 有 一 些 文件 可 能 
是 部 分 链接 的 ， 如 库 例 程 ， 其 目标 文件 中 仍 含有 未 解析 的 地 址 。 党 





| 例题 | 链接 目标 文件 3 
将 下 面 两 个 日 标 文件 链接 。 给 出 最 终 可 执行 文件 中 前 几 条 指令 更 新 过 的 地 址 。 为 了 
便于 理解 ， 我 们 使 用 汇编 语言 来 表示 指令 ， 在 实际 文件 中 ， 这 些 指令 都 是 用 二 进 制 数字 表 
示 的 。 
注意 在 目标 文件 中 ， 我 们 已 将 必须 在 链接 过 程 中 更 新 的 地 址 和 标记 用 灰色 表示 了 ， 分 别 
是 引用 过 程 A 和 过 程 B 的 地 址 的 指令 ， 以 及 引用 双 字 数据 Xx 和 的 地 址 的 指令 。 














































































































目标 文件 头 
名 称 过 程 A 
| 代码 大 小 100。 
二 一 = _ 数据 大 小 | 20 
代码 段 地 址 | 指令 
0 LDUR X0, [X27,#0] 
4 BL ? 
数据 股 Wl | 
重 定 位 信息 。 | 地 址 指令 类 型 依赖 
0 LDUR x 
| 4 | BL 8 
符号 表 标签 地 址 
8 = 
[ 名 称 过 程 B 
ee 代码 大 小 200, 
数据 大 小 se Ess 
代码 段 地 址 指令 
0 STUR X1, [X27,#0]| 
4 BLO 
数据 股  、 加 
_ 重 定位 信息 | 地 址 指令 类 型 依赖 
本 _ 0 STUR Y 
I gE BL 
| 符号 表 标签 地 址 
了 
| 














| 答案 | 过 程 A 需要 找到 load 指令 中 标记 为 X 的 变量 的 地 址 和 BL 指令 中 过 程 B 的 地 址 。 过 
程 B 需要 找到 store 指令 中 变量 Y 的 地 址 和 BL 指令 中 过 程 A 的 地 址 。 

从 图 2-14 中 ,我们 可 以 看 到 代码 段 从 地 址 0000 0000 0040 0000nex 开始 而 数据 段 从 地 址 
0000 0000 1000 0000ie 开始 。 过 程 A 的 代码 被 放置 在 第 一 个 地 址 ， 数 据 被 放 半 在 第 二 个 地 
址 。 过 程 A 的 目标 文件 头 表明 其 代码 段 大 小 是 100sex 字 节 而 数据 段 大 小 是 20wex 字 节 ， 所 以 
过 程 B 的 代码 段 的 起 始 地址 是 40 0100e*， 而 数据 段 则 从 地 址 1000 0020e 开始 。 
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可 执行 文件 头 | 
代码 大 小 300 
数据 大 小 SU 
代码 段 地 址 指令 
| 0000 0000 0040 0000,, LDUR x0, [X27.#0,.] 
0000 0000 0040 0004。 BL 000 00FC 
0000 0000 0040 0100。 STUR X1，[X27,420。] 
0000 0000 0040 0104。 BL 3FF FEFC, 
数据 段 地 址 | 
0000 0000 1000 0000, | 0 
0000 0000 1000 0020。 Vm 











现在 链接 器 更 新 了 指令 的 地 址 字段 ， 使 用 指令 类 型 字段 确定 待 编辑 地 址 的 格式 。 此 处 共 
有 两 种 类 型 ; 

e 分 支 和 链接 指令 采用 PC 相对 寻 址 。 因 此 ， 地 址 40 0004he. 处 的 BL 指令 要 跳 转 到 40 0100bex 
处 (程序 B 的 地 址 )，BL 指令 必须 将 ( 40 0100wex - 40 0004hex) 或 00 000FChex 存 人 指 
令 的 地 址 字段 中 。 同 样 ， 因 为 4 0000e* 是 过 程 A 的 地 址 ，40 0104hex 处 的 BL 指令 将 
负 值 3FF FEFChex 或 (40 0000ve =- 4001 0416bex) 存 人 其 指令 的 地 址 字段。 

e 确定 取 数 和 存 数 指令 相关 的 地 址 难度 更 大 ， 因 为 这 些 地 址 和 基 址 寄存 器 有 关 。 本 例 使 
用 X27 作为 基 址 寄存 器 。 假 设 X27 的 初始 值 为 000 0000 0100 0000hex。 为 了 得 到 地 
址 0000 0000 1000 0000bex〔 双 字 X 的 地 址 )， 我 们 将 位 于 地 址 40 0000hex 处 的 LDUR 
指令 的 地 址 字段 设置 为 0hex。 同 样 ， 为 了 得 到 地 址 0000 0000 1000 0020vex ( 双 字 Y 的 
地 址 )， 我 们 将 地 址 40 0100hex 处 的 STUR 指令 的 地 址 字段 设置 为 20ue。 


导电 本 书 前 面 介绍 过 LEGv8 指令 按 字 对 齐 ， 因 此 BL 指令 丢弃 最 右 侧 2 位 来 增加 指令 
寻 址 范围 。 这 样 就 可 以 使 用 26 位 来 产生 一 个 28 位 的 字 节 地 址 。 因 此 ， 本 例 中 第 一 条 BL 指 
令 的 低 26 位 对 应 的 实际 地 址 是 000003Fhex， 而 不 是 00 000Fhex。 
2.12.4 ”加 载 器 

既然 可 执行 文件 已 存在 磁盘 中 了 ， 操 作 系统 就 可 以 将 其 读 人 内 存 并 启动 执行 。 在 UNIX 
系统 中 ， 加 载 器 (loader) 按照 如 下 步骤 工作 : 





1. 读 取 可 执行 文件 头 来 确定 代码 段 和 数据 段 的 大 小 。 加 载 器 :把 目标 程序 装载 
2. 为 代码 和 数据 创建 一 个 足够 大 的 地 址 空间 。 到 内 存 中 以 准备 运行 的 系 
3. 将 可 执行 文件 中 的 指令 和 数据 复制 到 内 存 中 。 We 


4. 把 主 程序 的 参数 (如果 有 ) 复制 到 栈 中 。 
5. 初始 化 处 理 器 中 的 相关 寄存 器 ， 将 栈 指针 指向 第 一 个 空位 置 。 
6. 跳 转 到 启动 例 程 ， 该 例 程 将 参数 复制 到 参数 寄存 器 并 且 调 用 程序 的 main 函数 。 当 
main 函数 返回 时 ， 启 动 例 程 通过 系统 调用 exit 终止 程序 。 RE 
每 个 问题 都 可 以 在 其 他 导 
2.12.5 动态 链接 库 en 
本 节 的 第 一 部 分 将 描述 程序 运行 前 链接 库 的 传统 方法 。 虽 然 这 | Devid wheecler 
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种 静态 的 方法 是 调用 库 例 程 的 最 快 方式 ， 但 也 有 一 些 缺 点 : 
se 库 例 程 成 为 可 执行 代码 的 一 部 分 。 那 么 即使 发 布 了 新 版 本 的 库 (新 版 本 修正 了 一 些 错 
误 或 支持 新 的 硬件 设备 )， 而 静态 链接 的 程序 中 使 用 的 还 是 旧版 本 。 

。 可 执行 文件 中 调用 的 所 有 库 例 程 都 会 被 加 载 进来 ， 尽 管 很 多 调用 并 没有 被 执行 。 相 对 

程序 而 言 ， 库 可 能 会 很 大 ， 例 如 ， 标 准 的 C 语言 库 有 2.5MB。 

这 些 不 足 导 致 了 动态 链接 库 ( Dynamically Linked Library，DLL) 的 诞生 ， 即 只 有 到 程 
序 运行 的 时 候 ， 库 例 程 才 会 被 链接 和 加 载 。 程 序 和 库 例 程 都 对 非 局 动态 链接 库 ， 在 执行 过 程 
部 过 程 的 地 址 和 名 字 保 存 额外 信息 。 在 DLL 的 最 初版 本 中 ， 加 载 器 | 中 才 与 具体 程序 链接 的 库 
运行 一 个 动态 链接 器 ， 使 用 文件 中 的 额外 信息 来 找到 适当 的 库 并 且 | 铀 程 。 

更 新 所 有 外 部 引用 。 

DLL 最 初版 本 的 缺点 是 仍然 链接 可 能 被 调用 的 所 有 库 例 程 ， 而 不 是 仅仅 链接 程序 运行 时 
实际 调用 的 例 程 。 这 一 点 导致 了 惰性 过 程 链接 版 DLL 的 出 现 ， 该 版 本 中 每 个 例 程 只 有 在 调 
用 后 才 被 链接 。 

就 像 我 们 这 个 领域 中 的 许多 创新 一 样 ， 这 个 技巧 采用 了 一 种 间接 的 方法 。 图 2-23 展示 
了 该 技术 。 开 始 是 一 个 非 局 部 例 程 ， 该 例 程 的 末尾 调用 了 一 组 虚拟 例 程 ， 每 个 非 局 部 例 程 都 
有 一 个 人 口 。 这 些 虚 拟 入 口 每 个 都 包含 一 个 间接 跳 转 。 








































































































代码 代码 
a [®@+ a [® 
FLDUR LDUR 
BR [® BR Le 
二 | 
数据 数据 
了 9— | = 
代码 
| LDA ID 
5 [© 
代码 
-| 动态 链 载 器 
重 映射 DLL 例 程 
3 A 上 
数据 /代码 代码 
上 | 。 DLL 例 程 DLL 例 程 
BR [®1| BR 
al 第 一 次 调用 DLL 例 程 b) DLL 例 程 的 后 续 调用 


图 2-23 采用 惰性 过 程 链接 的 动态 链接 库 。a) 第 一 次 调用 DLL 例 程 的 步骤 ; b) 后 续 调用 中 ， 
查找 例 程 、 重 映射 和 链接 步骤 被 跳 过 。 我 们 将 在 第 5 章 看 到 ， 操 作 系 统 可 以 利用 虚拟 
内 存 管理 通过 重 映射 来 避免 复制 所 需 例 程 
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第 一 次 调用 库 例 程 时 ， 程 序 首先 调用 虚拟 入 口 ， 然 后 执行 间接 分 支 ( 跳 转 ) 指令 。 即 通 
过 一 段 代 码 ， 将 一 个 数字 放 人 寄存 器 来 识别 所 需 的 库 例 程 ， 然 后 跳 转 到 动态 链接 器 或 加 载 
器 。 链 接 器 或 加 载 器 找到 所 需 的 例 程 ， 重 映射 并 改变 间接 分 支 中 的 地 址 ， 使 其 指向 该 例 程 ， 
从 而 跳 转 到 该 例 程 执行 。 例 程 执行 完毕 ， 则 返回 到 初始 调用 点 。 此 后 ， 对 该 库 例 程 的 调用 都 
会 间接 跳 转 到 这 个 例 程 而 不 需 额外 的 步骤 。 

总 的 来 说 ,DLL 需要 额外 的 空间 来 存储 动态 链接 的 信息 ， 但 是 不 需要 复制 或 链接 整个 库 。 
例 程 仅 在 第 一 次 被 调用 时 开销 较 大 ， 此 后 就 只 需 一 个 间接 跳 转 。 要 注意 的 是 ， 从 库 返 回 的 操 
作 不 需要 额外 的 开销 。 微 软 的 Windows 系统 广泛 地 依赖 于 动态 链接 库 。 而 动态 链接 库 也 是 
目前 UNIX 系统 中 程序 执行 的 默认 方式 。 


2.12.6 ”启动 Java 程序 


前 面 讨论 了 程序 执行 的 传统 模式 ， 其 重点 是 使 一 个 面向 某 个 特定 指令 集体 系 结构 编写 的 
程序 快速 执行 ， 该 程序 甚至 是 面向 该 体系 结构 的 某 个 特定 实现 编写 的 。 实 际 上 ， 我 们 可 以 像 
C 那样 来 执行 Java 程序 。 当 然 ，Java 的 开发 本 身 是 为 了 不 同 的 目标 。 其 中 一 个 目标 就 是 能 够 
在 计算 机 上 安全 地 运行 ， 尽 管 执行 时 间 可 能 延长 。 

图 2-24 展示 了 翻译 和 执行 Java 程序 的 典型 步骤 。Java 程序 并 不 会 被 编译 成 目标 计算 机 
的 汇编 语言 ， 而 是 首先 被 编译 成 易于 解释 的 指令 序列 一 一 Java 字 节 码 ( Java bytecode) 指令 
集 ( 见 2.15 节 )。 该 指令 集 被 设计 得 与 Java 语言 接近 ， 因 此 编译 步 
又 相对 简单 。 事 实 上 ， 并 不 需要 进行 任何 优化 。 就 像 C 语言 编译 器 
那样 ，Java 编译 器 检查 数据 类 型 并 且 为 每 种 类 型 生成 正确 的 操作 。 
Java 程序 最 终 将 转化 成 这 些 字 节 码 的 二 进 制 形式 。 





Java 宇 节 码 :为 解释 Java 
程序 而 设计 的 指令 集中 的 
指令 。 








Java 程 序 





类 文件 {Java 字 节 码 ) | | Java 库 例 程 机 器 语言 ) 


ee 


编译 好 的 Java 方 法 【 机 器 语言 ) 


图 2-24 Java 的 翻译 层次 。 一 个 Java 程序 首先 被 编译 成 Java 字 节 码 二 进 制 形式 ， 其 中 所 有 的 
地 址 由 编译 器 定义 。 此 时 ，Java 程序 已 可 以 在 称 为 Java 虚拟 机 (JVM) 的 解释 器 上 运 
行 。JVM 链接 程序 执行 时 所 需 的 Java 库 中 的 方法 。 为 了 获取 更 好 的 性 能 ，JVM 能 够 
调用 JIT 编译 器 ， 选 择 性 地 把 一 些 方法 编译 成 宿主 机 上 的 本 地 机 器 语言 




















一 种 称 为 Java 虚拟 机 ( Java Virtual Machine，JVM) 的 软件 解 i 
释 器 能 够 执行 Java 字 节 码 。 解 释 器 是 一 个 用 来 模拟 一 种 指令 集体 系 | 字 节 码 的 程序 ， 
结构 的 程序 。 例 如 ， 本 书 所 使 用 的 ARMv8 模拟 器 就 是 一 种 解释 器 。 
由 于 翻译 非常 简单 ， 地 址 可 以 由 编译 器 填写 或 在 运行 时 被 JVM 发 现 ， 因 此 不 需要 单独 的 汇 
编 步 又 。 


解释 的 优势 是 可 移植 性 。 软 件 实现 的 Java 虚拟 机 的 可 用 性 意味 着 在 Java 公布 以 后 ,大 
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部 分 人 都 可 以 立即 编写 和 运行 Java 程序 。 今 天 ，Java 虚拟 机 可 以 在 从 手机 到 网 络 浏览 器 等 
数 以 亿 计 的 设备 中 找到 。 

解释 的 不 足 是 性 能 较 差 。 虽 然 20 世纪 80 年 代 和 90 年代 解释 在 性 能 上 的 飞速 提高 使 它 
可 用 于 很 多 重要 的 应 用 , 但 是 与 传统 方式 编译 的 C 程序 相 比 ，10 倍 的 性 能 差距 使 得 Java 对 
一 些 应 用 并 没有 吸引 力 。 

为 了 既 保 持 可 移植 性 又 提高 执行 速度 ，Java 发 展 的 下 一 阶段 是 “| 即时 编译 器 ， 一 交通 月 编 
实现 能 够 在 程序 执行 同时 进行 翻译 的 编译 器 。 这 种 即时 编译 器 ( Just | 译 器 的 名 称 ， 该 类 编译 器 
In Time complier，JIT) 通过 记录 ( profile) 运行 的 程序 来 找到 “ 热 。 | 能 够 在 运行 时 将 解释 后 的 
点 " 9， 然 后 将 它们 编译 成 Java 虚拟 机 所 运行 于 的 宿主 机 上 的 本 地 指 “| 全 吉明 训 二村 村 加 
令 。 编 译 过 的 部 分 被 保存 起 来 供 下 次 程序 运行 时 调用 ， 从 而 使 以 后 
每 次 运行 变 得 更 快 。 解 释 和 编译 的 平衡 随 着 时 间 的 推移 逐步 形成 ， 因 而 对 于 频繁 运行 的 Java 
程序 ， 其 解释 开销 就 相对 变 小 了 。 

随 着 计算 机 的 速度 越 来 越 快 ， 编 译 器 能 做 的 事情 也 越 来 越 多 。 并 且 随 着 研究 人 员 不 断 地 
开发 出 更 好 的 技术 来 编译 运行 中 的 Java 程序 ，Java 与 C 或 C++ 在 性 能 上 的 差距 正 越 来 越 小 。 
2.15 节 将 进一步 介绍 Java 程序 、Java 字 节 码 、JVM 和 JIT 编译 器 的 实现 。 








六 


2.13 ”综合 实例 : C 排序 程序 

以 片断 的 方式 展示 汇编 代码 的 危险 之 处 在 于 ， 你 无 法 了 解 完整 的 汇编 语言 程序 是 什么 样 
的 。 本 节 给 出 了 两 个 C 过 程 对 应 的 LEGv8 代码 : 一 个 用 于 交换 ( swap) 数组 元 素 ， 另 一 个 
用 于 排序 (sort) 数组 元 素 。 


2.13.1 swap 过 程 


我 们 从 图 2-25 中 的 过 程 swap 开始 。 该 过 程 简单 地 交换 内 存 中 两 个 位 置 的 内 容 。 我 们 
按照 以 下 常见 的 步骤 把 该 程序 从 C 手动 翻译 为 汇编 程序 : 

1. 为 程序 变量 分 配 寄存 器 。 

2. 为 过 程 体 生成 汇编 代码 。 

3. 保存 过 程 调用 间 的 寄存 器 。 








void swaptlong Tong int v[]。size_t k) 
1 


long long int temp; 
有 


temp = v[k]; 
V[k] = v[ktl]: 
Y[k+l] = temp: 





2-25 一 个 将 内 存 中 两 个 不 同位 置 的 内 容 进行 交换 的 C 过 程 。 该 过 程 用 于 本 小 节 的 排序 例子 中 
日 “热点 ” 指 程序 中 运行 特别 频繁 的 代码 块 。 一 一 译 者 注 
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本 节 将 按照 这 三 个 步骤 描述 swap 过 程 ， 包 括 把 所 有 的 步骤 总 结合 并 在 一 起 。 

为 swap 分 配 寄存 器 

如 2.8 节 所 述 ， 在 LEGv8 中 ， 使 用 寄存 器 X0 到 X7 进行 参数 传递 。 由 于 swap 只 有 两 
个 参数 v 和 k， 因 此 可 以 被 分 配给 寄存 器 X0 和 X1。 仅 剩 的 另 一 个 变量 是 temp， 由 于 swap 
是 一 个 叶 过 程 ( 见 2.8 节 )， 我 们 将 其 分 配给 寄存 器 X9。 这 些 寄存 器 的 分 配 与 图 2-25 中 swap 
过 程 第 一 部 分 的 变量 声明 相对 应 。 

为 swap 过 程 体 生 成 代码 

swap 过 程 C 代码 中 的 剩余 部 分 如 下 : 

temp = v[k]; 

v[k] = v[k+l]; 

V[k+1] = temp; 

LEGv8 存储 地 址 按 字 节 编 址 ， 因 此 双 字 由 8 个 字 节 组 成 。 因 此 ， 索 引 k 需 先 乘 以 8， 再 
与 地 址 相 加 。 忘 记 连 续 的 双 字 之 间 的 地 址 相差 8 而 不 是 1， 是 用 汇编 语言 编程 时 常见 的 错误 。 
因此 ， 第 一 步 通过 左 移 3 位 来 将 k 乘 以 8 以 获得 v[k] 的 地 址 : 

LSL X10, xX1,#3 // reg X10=k *8 

ADD X10，X0,X10 // reg X10 =v + (k* 8) 

// reg X10 has the address of v[k] 


接 下 来 根据 X10 取出 v[k] 的 值 ， 并 将 X10 加 8 得 到 v[k+l]: 


LDUR X9, [X10,#0] // reg X9 (temp) = v[k] 
LDUR X11, [X10,#8] // reg X11 = v[k + 1] 
// refers to next element of v 


最 后 将 X9 和 X11 存储 到 需要 交换 数据 的 地 址 中 : 

STUR X11, [X10,#0] /1/ v[k] = reg X11 

STUR Xx9, [X10,#8] // v[k+l] = reg X9 (temp) 

至 此 ， 我 们 已 经 为 该 过 程 分 配 了 寄存 器 并 获得 了 实现 交换 操作 的 代码 。 保 存 swap 中 使 
目的 保存 寄存 器 的 代码 并 没有 包括 在 其 中 。 但 由 于 我 们 并 不 使 用 叶 过 程 (这 里 swap 是 一 个 
叶 过 程 ) 中 的 保留 寄存 器 ， 因 此 没有 需要 保留 的 东西 。 

完整 的 swap 过程 

现在 可 以 得 到 完整 的 例 程 ， 包 括 过 程 标签 以 及 返回 的 跳 转 指令 。 为 了 便于 读者 的 理解 ， 

在 图 2-26 中 标明 了 过 程 中 每 个 代码 块 的 作用 。 





























过 程 体 

















swap: LSL X10, Xl1,#3 # reg XI0 = k* 8 
ADD XI0，X0,X10 # reg X10 =v+ (k * 8) 
# reg X10 has the address of vy[k] 
LDUR XxX9, [X10,#0] # reg X9 (temp) = v[k] 
LDUR X11,[X10.#8] # reg X11l = v[k + 1] 
# refers to next element of v 
STUR X11,[X10,#0] # v[k] = reg Xi1l 
STUR xX9, [X10,#8] # v[k+1] = reg X9 (temp) 
BR LR # return to calling routine 








图 2-26 2-25 中 swap 过 程 的 LEGv8 汇编 代码 
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2.13.2 sort 过 程 


为 了 确保 读者 能 够 领会 汇编 语言 编程 的 严格 性 ， 本 小 节 提 供 第 二 个 更 长 的 例子 进行 说 
明 。 该 例 中 , 我 们 将 编写 一 个 调用 swap 过 程 的 例 程 ， 使 用 冒 泡 或 交换 排序 算法 〈 这 种 排序 
算法 虽然 不 是 最 快 的 ， 但 却 是 最 简单 的 ) 对 数组 中 的 整数 进行 排序 。 图 2-27 给 出 了 该 程序 的 
C 代码 。 下 面 仍然 先 给 出 翻译 过 程 的 几 个 步骤 ， 最 后 再 把 它们 集成 到 一 起 。 





void sort (long long int v[]，size_t int n) 


size_ 
让 证 人 
for (i T Dy 0 ave > ve + 1 1 dl 
Swap( vj):; 


| 
1! 
1 





图 2-27 一 个 对 数组 v 中 元 素 进行 排序 的 C 过 程 

为 sort 分 配 寄存 器 

参数 寄存 器 X0 和 x1 分 配给 过 程 sort 的 两 个 参数 v 和 nn， 寄存器 X19 和 X20 则 分 别 
分 配给 变量 和 j。 

为 sort 过 程 体 生成 代码 

过 程 体 包含 两 个 嵌 套 的 for 循环 和 一 个 带 参数 的 swap 调用。 下 面 由 外 向 内 来 展开 代码 。 

第 一 步 翻译 第 一 个 for 循环 : 

Por Cs Oy Sh 1 D4 
C 语言 中 的 for 语句 有 三 个 部 分 : 初始 化 、 循 环 条 件 判断 和 迭代 递增 。 将 i 初始 化 为 0 只 需 
要 一 条 指令 ， 故 for 语句 的 第 一 部 分 为 : 

MOV X19, XZzR // i=0 
(注意 ，MOV 是 为 了 方便 汇编 程序 员 编 程 而 由 汇编 器 提供 的 伪 指 令 ， 见 2.12.2 节 。) 将 i 递增 
同样 也 只 需要 一 条 指令 实现 ， 因 此 for 语句 的 最 后 部 分 为 : 

亲生 
当 i<n 非 真 时 需要 退出 循环 ， 换 句 话 说， 也 就 是 当 i>n 时 循环 退出 。 循 环 条 件 判断 需要 两 
条 指令 : 


forltst; CMP X19, Xl // compare X19 to X1(i to n) 


B.GE exitl /1/ go to exitl if X19 > x1 (i2n) 
循环 最 后 仅仅 跳 回 循环 条 件 判断 的 地 方 : 
B forltst // branch to test of outer 100p 
exitl: 
第 一 个 for 循 环 的 框架 代码 为 
MOV X19, XZR 1 南下 
forltst:CMP X19, xX1 // compare X19 to x1 (i to n) 
B.GE exitl /1/ go to exitl if X19 > x1 (i2n) 


(body of first for 1oop) 


ADDI N19, X19, Bl Yi ii 1 
B forltst // branch to test of outer loop 
exitl: 
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( 课 后 的 习题 将 探索 如 何 为 类 似 的 循环 编写 更 快 的 代码 。) 
第 二 个 for 循环 的 C 语句 如 下 : 
for (ti 30 MI vi + 1 二 二 二 二 人 
这 个 循环 的 初始 化 部 分 仍然 只 需 一 条 指令 : 
SUBI X20, Xx19. #1 // j=i-1 
循环 末尾 j 的 递减 也 只 需 一 条 指令 实现 : 
SUBI X20，X20, #1 7/ j 一 = 1 
循环 条 件 测 试 由 两 部 分 组 成 ， 任 何 一 个 条 件 为 假 就 退出 循环 。 因 此 ， 如 果 第 一 个 条 件 测试 为 


假 (j<0), 循环 就 要 退出 : 


for2tst: CMP X20,.XZR // compare X20 to 0 (j to 0) 
B.LT exit2 /1/ go to exit2 if X20 < 0 (j < 0) 


这 条 跳 转 指令 将 跳 过 第 二 个 条 件 测试 。 如 果 没 有 跳 过 ， 则 j>0。 


如 v[j] >v[j+1] 非 真 , 或 v[j]<v[j+1] ， 则 第 二 个 测试 退出 。 将 j 乘 以 8 (我 们 需 
要 字 节 地 址 )， 然 后 与 v 的 基 址 相 加 : 


LSL X10, X20,. #3 1 reg Xd ei * 8 

ADD X11, XxX0, x10 1/ reg Xll = y+ 4 * 8) 
现在 取出 Vv[j]: 

LDUR X12, [X11.#0] // reg X12 = v[j] 


因为 第 二 个 元 素 恰好 是 顺序 下 一 个 双 字 ,因此 将 寄存 器 X11 中 的 地 址 值 加 8 就 可 以 取出 
Vv[j+1]: 


LDUR X13, [X11,#8] // reg X13 = v[j + 1] 


测试 v[]s[j+1] ， 以 判断 是 否 跳出 循环 : 


CMP X12, X13 // compare X12 to X13 
B.LE exit2 // go to exit2 if X12 < X13 


循环 末尾 跳 回 到 内 层 循环 测试 处 : 
B for2tst // branch to test of inner 100p 


将 这 些 代码 片段 组 合 起 来 就 可 以 得 第 二 个 for 循环 的 框架 : 


SUBI X20, X19, #1 人 
for2tst: CMP X20,XZR 1/ compare X20 to 0 (j to 0) 
B.LT exit2 // go to exit2 if x20 < 0 (jij < 0) 
LSL X10, x20, #3 // reg X10~j*8 
ADD X11, Xx0, X10 i/ reg Xll ~v+(j*8) 
LDUR Xx12, [X11,#0] 1/ reg X12 = v[j] 
LDUR X13, [X11.#8] // reg X13 = v[j + 1] 
CHMP x12. X13 // compare X12 to X13 
B.LE exit2 1/ go to exit2 if X12 < X13 


(body of second for loop) 


SUBI X20, X20, #1 I!j-=1 
B for2tst // branch to test of inner loop 
exit2: 


篆 余 : 计算 机 扒 语 言 99 





sort 中 的 过 程 调用 
下 一 步 处 理 第 二 个 for 循环 体 : 


Swap(v.j); 


调用 swap 足够 简单 (一 条 BL 指令 即 可 实现 ): 


BL swap 


sort 中 的 参数 传递 

当 我 们 想 传递 参数 时 间 题 出 现 了 ， 因 为 sort 过 程 需要 使 用 寄存 器 X0 和 X1 中 的 值 ， 
而 swap 过 程 需 要 将 其 参数 放 人 同样 的 寄存 器 中 。 一 种 解决 办 法 是 在 过 程 执行 的 早期 就 将 
sort 的 参数 复制 到 其 他 寄存 器 中 ， 让 出 X0 和 Xx1 寄存 器 供 swap 过 程 使 用 。( 这 种 复制 要 
比 使 用 栈 进 行 保存 和 恢复 快 得 多 。) 在 过 程 中 ， 首 先 将 寄存 器 X0 和 XI 的 值 用 如 下 方法 复制 
到 X21 和 X22 中: 

MOV X21, x0 1/ copy parameter X0 into X21 

MOV X22, Xl /1/ copy parameter Xl1 into X22 


然后 用 下 面 两 条 指令 将 参数 传递 给 swap: 


MOV X0, X21 // first swap parameter is vy 
MOV X1, X20 1/ second swap parameter is j 
在 sort 中 保存 寄存 器 


和 璋 下 的 代码 保存 和 恢复 寄存 器 从。 显然 ， 我们 必须 将 返回 地 址 保存 在 寄存 器 LR 中 ， 因 
为 sort 是 一 个 过 程 并 且 本 身 也 被 调用 。sort 过 程 还 使 用 了 由 被 调用 者 保存 的 寄存 器 X19 、 
X20、X21 和 X22， 这 些 寄存 器 的 值 也 必须 被 保存 。 因 此 ，sort 过 程 开头 的 代码 如 下 : 

SUBI SP,SP.#40 // make room on stack for 5 regs 

STUR LR, [SP ,#32] // save LR on stack 

STUR X22,[SP,#24] // save X22 on stack 

STUR X21,[SP,#16] /1/ save X21 on stack 

STUR X20,[SP,#8] // save X20 on stack 

STUR X19,[LSP,#0] // save X19 on stack 
过 程 末尾 只 需 简 单 地 反 向 执行 这 些 指令 ， 最 后 加 入 一 条 BR 指令 以 实现 返回 。 

完整 的 sort 过 程 

现 将 上 述 所 有 代码 片段 组 合 起 来 ， 如 图 2-28 所 示 ， 注 意 for 循环 中 对 寄存 器 X0 和 X1 
的 引用 被 蔡 换 成 对 寄存 器 X21 和 X22 的 引用 。 同 样 为 了 便于 读者 阅读 和 理解 ， 图 中 的 每 个 
代码 块 都 标注 了 用 途 。 本 例 中 ，9 行 C 语言 编写 的 sort 过 程 变 成 了 34 行 LEGv8 汇编 语言 
代码 。 

上 清 研 这 个 例子 可 以 使 用 一 种 称 为 过 程 内 联 (procedure inlining) 的 优化 方法 。 编 译 器 将 
swap 过 程 体 的 代码 复制 到 代码 中 出 现 swap 调用 的 地 方 ， 而 不 是 通过 传递 参数 以 及 执行 BL 
指令 来 调用 代码 。 本 例 中 ， 内 联 可 以 省 掉 4 条 指令 。 使 用 内 联 优化 的 缺点 是 如 果 内 联 后 的 过 
程 需要 在 多 个 地 方 调用 ， 那 么 编译 后 产生 的 代码 量 将 变 大 。 如 果 这 种 代码 膨胀 引起 了 cache 
缺失 率 的 上 升 ， 那 么 就 会 导致 性 能 的 下 降 ( 见 第 5 章 )。 

[三 征程 摩 竹 侈 | 图 2-29 给 出 了 编译 器 优化 对 排序 程序 性 能 的 影响 ， 包 括 编译 时 间 、 时 
钟 周期 数 、 指 令 数 和 CPI。 注 意 ， 未 优化 的 代码 具有 最 好 的 CPI， 使 用 O1 优化 具有 最 少 的 
指令 数 ， 但 是 03 优化 的 执行 速度 最 快 。 而 执行 时 间 是 准确 衡量 程序 性 能 的 唯一 指标 。 
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| sort: SUBI SP,SP.#40 1 make room on stack for 5 registers 
STUR ~ X30,[SP,#32]  / save LR on stack 
STUR ~ X22,[SP,#24]  W save X22 on stack 
STUR ~ X21,[SP.#16]  / save X21 on stack 
STUR ~ X20, [SP,#8]  / save X20 on stack 
STUR X19, [SP,#0]  / save X19 on stack i 
9 程 体 
MOV X21，X0 # copy parameter XO into X21 
传送 参数 MOV X22，X1 # copy parameter Xl into X22 | 
MOV X19，XZR #1i=0 
外 部 循环 farltst:CMP X19, X1 # compare X19 to X1 (i to n) 
B.GE exitl # go to exitl if X19 2 X1 (i2n) 
SUBI X20, X19. 和 和 半 j=-i1-1 | 
for2tst:CMP X20,XZR # compare X20 to 0 (j to 0) 
8B.LT exit2 # go to exit2 if X20 < 0 (j < 0) 
LSL X10, X20, 43 #reg X10=j*8 
内 部 循环 ADD X11, X0, X10 # reg Xll ~v+ (jij* 8) 
LDUR X12， ] # reg Xl2 = v[j] 
LDUR X13, [Xll,#8] # reg X13 = v[j + 1] 
CMP X12, X13 # compare X12 to X13 
| BLE exit2 # go to exit2 if Xl2 < X13 
MOV X0, X21 # first swap parameter is v 
传递 参数 和 调用 MOV X1L，X20 #F second swap parameter is j 
和 BL Swap 二 一 二 到 
SUBI X20, x20, #1 #j- 一 1 
( a B forz2tst # branch to test of inner 1o0p .= 
exit2: ADDI X19, X19, #1+=1 
| 人 关押 B forltst # branch to test of outer loop 
exitl: STUR X19, [SP,#0]  # restore X19 from stack 
STUR X20, [SP.#8]  # restore X20 from stack 
STUR X21,[SP,#16]  # restore X21 from Stack 
STUR ~ X22,[SP,#24]  #restore X22 from stack 
STUR X30,[SP,#32]  #restore LR from stack | 
SUBI SP.SP,#40 # restore stack pointer 











BR LR __# return to calling routine 











图 2-28 图 2-27 中 sort 过 程 的 LEGv8 汇编 代码 





1.00 




















158 615 114 938 1.38 
2.37 66 990 37 470 1.79 
2.38 66 521 39 993 | 66 | 
03 ( 过 程 集成 ) 2.41 | 65747 44 993 1.46 








图 2-29 冒 泡 排序 中 编译 器 优化 对 性 能 、 指 令 数 、CPI 的 影响 。 程 序 对 数组 中 的 100 000 个 32 
位 字 进 行 排序 ， 数 组 用 随机 值 初始 化 。 程 序 运行 在 3.06GHz 的 Pentium 4 处 理 器 上 ， 
533MHz 系统 总 线 ，2GB PC2100 DDR SDRAM。 操 作 系统 使 用 Linux 2.4.20 版 


背 令 ; 计算 机 的 语言 101 





图 2-30 比较 了 编程 语言 、 编 译 执行 或 解释 执行 、 算 法 对 排序 程序 性 能 的 影响 。 第 四 列 
表明 ， 对 于 冒 泡 排序 ， 未 优化 的 C 程序 比 解释 后 的 Java 代码 快 8.3 倍 。 使 用 JIT 编译 器 可 以 
使 Java 比 没有 优化 的 C 程序 快 2.1 倍 ， 即 使 相 比 于 按 最 高 级 别 (O3 ) 优化 后 的 C 代码 ， 性 
能 也 慢 了 不 到 1.13 倍 。( 2.15 节 将 给 出 更 多 关于 Java 解释 执行 和 编译 执行 的 细节 ， 以 及 冒 泡 
排序 的 Java 和 LEGv8 代码 。) 对 于 第 五 列 中 的 快速 排序 ， 变 化 比例 就 没 那么 接近 了 ， 可 能 的 
原因 是 在 较 短 的 执行 时 间 内 分 摊 运 行 时 编译 的 开销 较为 困难 。 最 后 一 列 显示 了 采用 一 个 更 好 
的 算法 会 带 来 的 影响 ， 当 对 100 000 个 元 素 进 行 排序 时 ， 可 以 达到 三 个 数量 级 的 性 能 提升 。 
即使 将 第 五 列 中 解释 执行 的 Java 与 第 四 列 中 最 优化 的 C 代码 相 比 ， 快 速 排序 仍 比 冒 泡 排 序 
快 了 50 倍 (未 优化 C 代码 的 123 ( 0.05x2468 ) 倍 除 以 2.41 倍 )。 









































c 编译 器 ”| 无 
编译 中 | 01 
编译 器 02 
ee 编译 器 OB 9 = ee _ 
Java 解释 器 | _0.05 _ 二 
即时 编译 器 | 029 338 | 
图 2- 30 两 种 排序 算法 分 别 用 C 和 Java 实现 ( Java 分 别 使 用 解释 执行 和 优化 编译 )， 比 较 基 准 为 未 优化 
的 C 版 本 。 最 后 一 列 给 出 了 每 种 语言 和 执行 方式 下 ， 快 速 排序 相对 冒 泡 排序 的 性 能 提升 。 这 


些 程序 都 运行 在 图 2-29 所 示 的 系统 上 。JVM 采 用 Sun 1.3.1 版 , JIT 的 版 本 是 Sun Hotspot 1.3.1 

辆 钥 | ARMv8 编译 器 总 是 在 栈 中 为 参数 保留 空间 ， 以 防 这 些 参数 需要 存储 。 困 此 ， 栈 

指针 SP 总 是 减 去 64 从 而 为 8 个 参数 寄存 器 ( 共 64 字 节 ) 预 留 空间 。C 提供 vararg 选项 

以 允许 一 个 指针 选择 过 程 的 第 三 个 参数 。 当 编译 器 遇 到 极 少 出 现 的 vararg 时 ， 便 会 将 8 个 
参数 寄存 器 拷贝 到 栈 中 的 8 个 保留 位 置 中 


2.14 ”数组 和 指针 


理解 指针 对 任何 一 个 C 编程 新 手 来 说 都 是 一 项 挑战 。 通 过 对 比 使 用 数组 和 数组 索引 的 汇编 代 
码 和 使 用 指针 的 汇编 代码 ， 可 以 从 本 质 上 来 理解 指针 。 本 节 将 分 别 基 于 C 和 LEGv8 展示 将 内 存 中 
一 串 双 字 清 零 的 两 个 过 程 : 一 个 使 用 数组 索引 ， 另 一 个 使 用 指针 。 图 2-31 给 出 了 这 两 个 C 过 程 。 





clearl(Tong long int array[], size_t int size) 
1 


size_t 1; 
for Ti = 0; i < size; i += 1) 
array[i] = 0; 


| 
clear2f1ong long fnt tarray, size_t int size) 
1 
long long int *p 
for 时 = erro; p< Barray[size]: p=p+1) 





图 2-31 两 个 将 数组 清 零 的 C 过 程 。clearl 使 用 索引 ，clear2 使 用 指针 。 对 于 不 熟悉 C 的 人 , 第 二 
个 过 程 需要 做 一 些 解释 。 一 个 变量 的 地 址 使 用 & 表明 ,指针 所 指向 的 对 象 则 用 * 表示 。array 
和 了 P 被 声明 为 指向 整数 的 指针 。clear2 中 for 循环 的 第 一 个 部 分 将 array 第 一 个 元 素 的 地 
址 赋值 给 指针 p。 for 循环 的 第 二 部 分 判断 该 指针 的 指向 是 否 超过 了 array 的 最 后 一 个 元 素 。 
for 循环 的 最 后 部 分 将 指针 加 1， 意 味 着 将 指针 移 到 其 所 声明 空间 中 的 下 一 个 对 象 。 由 于 P 是 
一 个 指向 整数 的 指针 ， 编 译 器 将 会 产生 LEGv8 指令 将 Pp 按 8 (一 个 LEGv8 整数 的 字 节 数 ) 递 
增 。 循环 体 中 的 赋值 语句 将 0 赋值 给 p 所 指向 的 对 象 
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本 节 的 目的 在 于 展示 指针 如 何 映射 为 LEGv8 指令 ， 而 不 是 强调 一 种 过 时 的 编程 风格 。 
本 节 最 后 ， 我 们 将 看 到 现代 编译 优化 技术 对 这 两 个 过 程 的 影响 。 


2.14.1 用 数组 实现 clear 
我 们 从 数组 版 本 开始 ，clearl 主要 关注 循环 体 ， 忽 略 过 程 的 其 他 关联 代码 。 假 设 两 个 
参数 array 和 size 分 别 在 寄存 器 X0 和 X1 中 ，i 分 配给 寄存 器 X9。 
for 循环 的 第 一 部 分 ， 直 接 初 始 化 变量 i: 
MOV X9 ,XZR // i= 0 (register X9=0) 
为 了 将 array[i] 置 0, 需要 得 到 它 的 地 址 。 首 先 将 i 乘 以 8 获得 字 节 地 址 : 
loopl: LSL X10,X9,#3 1/ X10=i1i*8 
因为 数组 array 的 起 始 地 址 在 寄存 器 中 ， 因 此 必须 通过 一 条 加 法 指令 将 该 首 地 址 与 下 
标 (索引 ) 相 加 以 得 到 array[i] 的 地 址 : 
ADD X11,xX0,X10 // X11 = address of array[i] 
最 后 ,将 0 存 人 该 地 址 ; 
STUR XZR, [X11.,#0] /1/ array[li] = 0 
这 条 指令 是 循环 体 中 的 最 后 一 条 指令 ， 下 一 步 是 增加 i 值 : 
ADDI X9,X9,#1 和 于 
循环 测试 条 件 检测 i 是 否 小 于 size: 


CMP X9 ,X1 // compare i to size 
B,LT loopl // if (i < size) go to loopl 


以 上 是 过 程 的 所 有 片断 。 下 面 是 使 用 索引 来 将 一 个 数组 清 零 的 完整 的 LEGv8 代码 : 


MOV X9 ,XZR 外 和: 

1oop1: LSL X10 ,X9 ,#3 // X10=i1i*8 
ADD X11,X0,X10 // X11 = address of array[i] 
STUR XZR, [X11,#0] // array[i] = 0 


ADDI Xx9,X9,#1 ti tet 1 
CMP X9 ,X1 // compare i to size 
B.LT loopl // if (i < size) go to loopl 


(只 要 size 大 于 0， 这 些 代码 就 能 正确 工作 ; ANSI C 需要 在 循环 前 测试 size 值 ， 此 处 我 
们 略 过 了 这 个 规定 -) 
2.14.2 ”用 指针 实现 clear 


第 二 个 过 程 使 用 指针 将 两 个 参数 array 和 size 分 配给 寄存 器 X0 和 Xl， 将 Pp 分 配给 
寄存 器 X9。 第 二 个 过 程 的 代码 开始 部 分 将 数组 array 的 首 地 址 赋值 给 指针 P: 


MOV X9,X0 // p= address of array[0] 
接 下 来 的 代码 是 for 的 循环 体 ， 简 单 地 将 0 存 人 Pp( 指 向 的 存储 单元 ): 
1oop2: STUR XZR, LX9,#0] // Memory[p] = 0 


这 条 指令 实现 了 循环 体 ， 下 一 条 指令 增加 迭代 子 ， 即 改变 pP 使 其 指向 下 一 个 双 字 : 
ADDI x9,x9.#8 I/p=p+8 
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在 C 中 将 指针 加 1 意味 着 将 指针 指向 顺序 的 下 一 个 对 象 。 因 为 P 是 一 个 指向 长 整数 
(long long int) 的 指针 ， 而 每 个 长 整数 占用 8 字 节 ， 因 此 编译 器 将 P 加 8。 

接 下 来 是 循环 条 件 测试 。 第 一 步 是 计算 数组 array 最 后 一 个 元 素 的 地 址 。 首 先 将 size 
乘 以 8 得 到 字 节 地 址 。 


LSL X10,X1 ,#3 // X10 = size * 8 
然后 ， 将 上 面 的 乘积 与 数组 的 首 地 址 相 加 以 获得 数组 后 面 第 一 个 双 字 的 地 址 ; 
ADD X11,x0,X10 // X11 = address of array[size] 
循环 测试 仅仅 是 简单 地 判断 Pp 是 否 比 array 最 后 一 个 元 素 的 地 址 小 : 
CMP 。 X9 ,X11 /4 compare p to &array[size] 
B.LT 1oop2 // if (pk&array[size]) go to loop2 
至 此 ， 所 有 的 代码 片段 都 已 完成 ， 组 合 起 来 就 可 以 得 到 通过 指针 将 数组 清 零 的 代码 了 ， 
MOV X9.x0 1/ p= address of array[0] 
loop2: STUR XZR, CX9,#0] 1/ Memory[p] ~ 0 
ADDI x9,x9,#8 lI/p=p+8 
LSL X10,X1,#3 // X10 = size * 8 
ADD X11,X0.X10 1/ X11 = address of array[size] 
CMp x9,.X11l 41/ compare p to < karray[size] 
B.LT loop2 11 if (p < garray[size]) go to 100p2 


同 第 一 个 例子 一 样 ， 这 段 代码 也 假定 size 大 于 0。 
注意 ， 这 个 程序 在 每 次 循环 迭代 中 都 计算 数组 未 尾 的 地 址 ， 尽 管 该 地 址 并 无 变化 。 这 段 
代码 的 另 一 种 执行 速度 更 快 的 版 本 是 将 计算 放 到 循环 体外 面 : 


MOV x9,x0 // p= address of array[0] 

LSL X10,X1,#3 1/ X10 = size * 8 

ADD X11,X0,x10 1/ X11 ~ address of array[size] 
loop2: STUR XZR,0CX9.#0] // Memory[p] = 0 

ADDI  X9 ,X9 ,#8 MAp-p+8 

CMp 。 X9,XIl // compare p to < &array[size] 

B.LT loop2? /1 if (p < &array[lsize]) go to loop2 


2.14.3 ”比较 两 个 版 本 的 clear 


下 面 将 两 段 代码 放 在 一 起 进行 比较 ， 对 比 采 用 数组 索引 和 采用 指针 的 区 别 (指针 版 本 带 
来 的 变化 用 灰色 显示 ): 








MOV  X9 ,XZR 1/i=0 MOV Xx9,X0 
loopl: LSL XI10,X9 , 失 3 1/X10=i*8 LSL X10,X1,.#3 
ADD X11,X0,X10 // Xll = &array[i] ADD X11,x0,x10 
STUR XZR,[X11.#0] // array[i] = 0 pop2: STUR XZR,[X9,#0]) 7VMemory[p] = 0 
ADDI X9.X9.#1 Hi=t+i ADDI Xx9,xX9,#8 lip=p+8 
CNMP X9,X1 // compare i to size CNMP Xx9,X1l 1/ compare p to &array[5ize] 
B.LT 1oopl M1 if () go to loopl B.LT loop2 // if (p < &array[size]) go to 10op2 


左边 的 版 本 必须 在 循环 中 有 “ 乘 ” 和 加 的 操作 ， 因 为 i 值 增加 后 ， 每 个 地 址 都 必须 根据 
新 的 下 标 (索引 ) 重新 计算 。 而 右边 的 指针 版 则 直接 增加 指针 P 的 值 。 指 针 版 将 尺度 转换 ” [145 
和 数组 边界 计算 移 到 循环 外 ， 从 而 将 每 次 迭代 执行 的 指令 数 从 6 减少 到 4。 这 种 手动 的 优化 
与 编译 器 的 强度 削减 (用 移 位 代替 乘 ) 和 归纳 变量 消除 (消除 循环 中 的 数组 地 址 计算 ) 是 一 
致 的 >。2.15 节 描 述 了 这 两 种 优化 以 及 其 他 一 些 优化 手段 。 


日 即将 p 加 8。 一 一 译 者 注 
加 即 去 除 代码 中 的 循环 控制 变量 。 一 一 译 者 注 
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上 清秋 正如 前 面 提 到 的 ，C 编译 器 需要 增加 测试 来 确保 size 大 于 0。 一 种 方法 是 在 特 
环 的 第 一 条 指令 之 前 加 入 一 条 跳 转 到 CMP 的 分 支 / 跳 转 指令 。 

| 潭 和 程序 憾 能 | 人 们 常常 被 告知 要 在 C 中 使 用 指针 来 获得 比 使 用 数组 更 高 的 效率 :“ 使 
用 指针 ， 即 使 你 根本 不 能 理解 代码 。” 而 现代 的 优化 编译 器 可 以 为 数组 版 生成 同样 好 的 代码 。 
但 现在 大 部 分 程序 员 更 喜欢 让 编译 器 去 做 更 繁重 的 工作 。 


2.15 高 级 主题 : 编译 C 和 解释 Java 


本 节 简 要 描述 C 编译 器 如 何 工作 以 及 Java 如 何 被 执行 。 因 为 编译 器 将 对 计算 机 的 性 能 
产生 重要 影响 ， 所 以 理解 当今 的 编译 器 技术 是 理解 性 能 的 关键 。 编 译 器 构建 的 相关 内 容 一 般 
需要 1 ~ 2 个 学 期 讲授 ， 所 以 这 里 我 们 将 仅仅 接触 一 些 基 本 内 容 。 

本 节 第 二 部 分 是 为 对 面向 对 象 语言 ( objected oriented language) | 面向 对 象 语言 ， 一 种 针对 
(例如 Java) 如 何在 LEGv8 体系 结构 上 执行 感 兴趣 的 读者 准备 的 。 | 对 象 而 不 是 动作 ， 或 者 针 
本 节 将 展示 用 于 解释 执行 的 Java 字 节 码 ， 以 及 前 面 几 节 中 出 现 的 一 i 
些 C 程序 段 的 Java 版 本 的 LEGv8 代码 ， 包 括 冒 泡 排 序 。 内 容 将 覆 | 
盖 Java 虚拟 机 和 JIT 编译 器 。 

本 节 的 剩余 内 容 可 在 配套 网 站 上 找到 。 


2.16 ”实例 : MIPS 指令 集 


和 ARMv8 最 接近 的 指令 集 是 另 一 个 公司 开发 的 MIPS 指令 集 。MIPS 和 ARMv8 设计 理 
念 相同 ,但 MIPS 的 问世 要 比 ARMv8 早 25 年 。 如 果 你 了 解 ARMv8 指令 集 ， 那 么 了 解 MIPS 
也 很 容易 上 手 。 为 了 展示 两 者 的 相似 性 ， 图 2-32 对 ARMv8、MIPS 以 及 ARMv7 指令 集 进行 
了 对 比 * 

MIPS 指令 集 提 供 32 位 地 址 和 64 位 地 址 两 个 版 本 ， 分 别称 为 MIPS-32 和 MIPS-64。 这 
两 种 指令 集 几 乎 完全 相同 ， 区 别 在 于 较 大 的 地 址 空间 需要 64 位 而 不 是 32 位 的 寄存 器 。 下 面 
是 ARMv8 和 MIPS 的 一 些 共同 特征 : 

。 两 种 体系 结构 的 指令 都 是 32 位 。 

。 都 有 32 个 通用 寄存 器 ， 并 且 其 中 一 个 寄存 器 的 值 由 硬件 恒 置 为 0。 

e load 和 store 指令 是 访问 内 存 的 唯一 途径 。 

。 和 其 他 一 些 结构 不 同 ， 无 论 MIPS 或 ARMv8 都 没有 指令 能 存 / 取 多 个 寄存 器 。 

。 都 有 分 支 指令 ， 能 够 根据 寄存 器 值 为 0 转移 或 不 为 0 转移 。 

。 都 有 32 位 的 浮 点 寄存 器 ， 第 3 章 将 会 介绍 。 

。 两 类 结构 的 所 有 寻 址 方式 都 适用 于 字 大 小 。 

ARMv8 和 MIPS 一 个 最 主要 的 区 别 是 条 件 分 支 指令 (为 0 转移 或 不 为 0 转移 等 )。 
ARMv8 以 及 许多 其 他 结构 采用 条 件 码 。 而 MIPS 依赖 于 比较 指令 ， 这 些 比 较 指令 根据 比较 
结果 是 否 为 真 而 将 寄存 器 值 置 为 0 或 1。 程 序 员 则 根据 比较 结果 的 需要 ， 在 比较 指令 之 后 加 
人 一 条 为 0 转移 分 支 或 为 1 转移 分 支 指令 。 遵 循 极 简 主义 理念 ,MIPS 指令 集 只 实现 了 “小 于 ” 
的 比较 ， 由 程序 员 根据 需要 的 结果 来 改变 操作 数 的 顺序 或 改变 分 支 指令 的 测试 条 件 。MIPS 
的 小 于 指令 有 有 符号 数 和 无 符号 数 两 个 版 本 ， 分 别 是 SIT 和 SLTU。 


日 LEGv8 为 ARMv8 的 一 个 子 集 ， 故 图 中 用 LEGv8 代替 ARMv8。 一 一 译 者 注 
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图 2-32 LEGv8、MIPS 和 ARMv7 的 指令 格式 。 格 式 间 的 差异 一 部 分 来 自 于 体系 结构 使 用 16 
个 (ARMv7 ) 还 是 32 个 寄存 器 (ARMv8 和 MIPS) 


除了 经 常 使 用 的 核心 指令 之 外 ，ARMv8 和 MIPS 的 另 一 个 主要 区 别 是 ， 完 整 的 ARMv8 
指令 集 比 完整 的 MIPS 指令 集 的 规模 更 大 (2.19 节 将 进行 描述 )。 更 大 的 规模 意味 着 更 多 的 


指令 格式 、 更 多 的 寻 址 方式 以 及 更 多 的 操作 类 型 。 


2.17 实例 : ARMv7 ( 32 位 ) 指令 集 
ARM 最 初代 表 Acorn RISC Machine， 后 来 改 为 Advanced RISC Machine。ARMvl 和 
MIPS 同年 诞生 。 这 两 种 体系 结构 集 都 采用 32 位 地 址 ， 这 在 1985 年 是 完全 适用 的 。 随 后 ， 


ARM 陆续 推出 了 很 多 32 位 地 址 指令 集 版 本 ，2005 年 推出 了 ARMYv7。 
ARM 架构 师 看 到 了 32 位 地 址 计算 机 的 局 限 性 ， 并 在 2007 年 开始 设计 64 位 地 址 版 本 。 | 7 
指令 集 的 设计 中 会 存在 诸多 潜在 的 问题 ， 其 中 一 个 几乎 难以 克服 的 问题 是 存储 地 址 空间 大 
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小 。 例 如 ，16 位 地 址 的 MOStek 6502° 成 就 了 Apple II， 但 即使 拥有 第 一 款 在 商业 上 获得 成 
功 的 个 人 电脑 的 头衔 ， 地 址 位 的 缺乏 依然 使 其 最 终 成 为 历史 的 尘埃 。 

64 位 地 址 的 ARMv8 在 2011 年 发 布 ，2013 年 样机 上 市 。 与 MIPS 通过 将 所 有 寄存 器 改 
为 64 位 宽 等 微小 的 改变 来 实现 MIPS-64 不 同 ，ARM 做 了 全 面 的 改变 。 更 令 人 惊奇 的 是 ,我 
们 发 现 ARMv8 指令 的 设计 理念 更 接近 于 MIPS 而 不 是 ARMv7。 

下 面 是 ARMv7 和 ARMv8 两 种 指令 集 的 相似 之 处 : 


两 种 体系 结构 的 指令 都 是 32 位 宽 。 
两 种 体系 结构 都 通过 load 和 store 指令 访问 内 在。 


两 者 的 不 同 之 处 如 下 : 


| 


ARMv7 和 之 前 更 早 的 ARM 指令 集 都 只 有 15 个 通用 寄存 器 ， 编 译 器 开发 人 员 对 此 会 
很 不 高 兴 (增加 了 编译 器 开发 的 难度 )。 

ARMv7 和 其 之 前 的 ARM 指令 集 都 没有 将 某 个 寄存 器 硬件 置 0， 因 此 这 些 指令 集 需要 
额外 的 指令 才能 完成 ARMv8 通过 XZR 寄存 器 就 可 以 完成 的 操作 。 

ARMv7 和 之 前 的 ARM 指令 集 缺少 的 第 16 个 寄存 器 是 程序 计数 器 ( PC)。 因 此 ,车 
该 寄存 器 被 分 配给 一 条 算术 逻辑 运算 指令 ， 那 么 程序 员 会 遇 到 不 可 预料 的 分 支 。 而 在 
ARMv8 中 ，PC 不 是 32 个 寄存 器 之 一 。” 

ARMv7 的 寻 址 方式 并 不 适用 于 所 有 的 数据 大 小 ， 而 ARMv8 可 以 。 

ARMv7 有 取 多 个 数 (load multiple) 和 存 多 个 数 (store multiple) 的 指令 ， 即 允许 几 个 
寄存 器 同时 从 内 存 中 移入 移出 数据 ， 而 ARMv8 没有 。 

几乎 所 有 的 ARMv5 (及 更 早 的 版 本 ) 指令 中 都 有 一 个 4 位 的 条 件 执行 字段 ， 若 条 件 
为 假 ， 指 令 将 被 转换 为 空 操作 (NOP)。 实 际 上 ， 条 件 分 支 指令 只 是 一 种 特殊 的 常规 
分 支 指令 。ARMv7 的 很 多 指令 没有 该 条 件 执行 字段 ， 以 便 给 新 指令 腾 出 空间 。 而 
ARMv8 没有 该 字段 。 

立即 数字 段 可 以 不 仅仅 是 一 个 常量 ， 而 是 某 个 产生 常量 的 函数 的 输入 。ARMYv7 的 
12 位 立即 数字 段 的 最 低 8 位 有 效 位 被 零 扩展 为 32 位 数 ， 然 后 按 该 字段 开头 4 位 ( 即 
12 位 去 除 最 低 8 位 后 的 剩余 位 ) 定义 的 数值 乘 以 2 进行 循环 右 移 。 这 样 做 的 目的 是 
利用 更 少 的 位 数 编码 更 多 有 用 的 常量 。 对 于 逻辑 运算 指令 中 的 立即 数字 段 ， 完 整 的 
ARMv8 指令 集 有 专门 的 复杂 的 编码 方法 。 该 技术 是 否 能 够 比 简单 的 常量 字段 (MIPS 
采用 的 方式 ) 获得 更 多 的 立即 数 ， 这 是 一 个 有 趣 的 研究 内 容 。 

与 ARMv8 不 同 ， 早 期 的 ARM 指令 集 都 省 去 了 除法 指令 (参见 第 3 章 )。ARMv7 中 
有 除法 指令 ,但 只 是 兼容 的 ARMv7 核 中 的 可 选 配置 。 


实例 : x86 指令 集 


指令 集 的 设计 者 有 时 会 提供 比 ARM 和 MIPS 指令 更 强大 的 操 ”| 情人 眼 里 出 西施 。 
作 ， 目 的 是 减少 程序 执行 的 指令 数 。 这 样 做 的 风险 在 于 ， 这 种 缩减 “| ”eet wo Hungerford, 


可 能 损失 简单 性 ， 并 可 能 增加 程序 的 执行 时 间 ， 因 为 指令 执行 本 身 


Molly Bawn,1877 


变 慢 了 。 这 种 减 慢 可 能 是 时 钟 周 期 变 长 或 是 比 简单 序列 需要 执行 更 多 的 周期 造成 的 。 
通 向 复杂 操作 的 道路 充满 了 危险 。2.20 节 将 证 明 复杂 性 的 陷阱 。 


日 
9 


摩托 罗拉 推出 的 一 堵 处 理 器 芯片 。 一 一 译 者 注 


PC 是 独立 的 寄存 器 。 一 一 译 者 注 
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218.1 


Intel x86 的 演进 


ARMv8 和 MIPS 都 是 由 单一 的 小 组 在 相同 的 时 间 推 出 的 。 这 两 种 体系 结构 的 各 个 部 分 


都 能 很 


发 ， 体 系 结构 不 断 改进 ， 原 来 的 指令 集中 增加 了 很 多 新 特性 ， 这 就 像 有 些 人 往 包装 好 的 包 里 


好 地 配合 在 一 起 ， 但 x86 却 不 是 。 在 35 年 的 发 展 中 ，x86 由 多 个 相互 独立 的 小 组 开 





添加 衣服 一 样 。 下 面 是 x86 发 展 过 程 中 一 些 重要 的 里 程 碑 。 


1978 年 : Intel 8086 体系 结构 问世 ， 扩 展 了 Intel 8080 (一 款 已 获 成 功 的 8 位 微 处 理 器 ) 
并 在 汇编 语言 上 与 其 兼容 。8086 是 一 种 16 位 的 结构 ， 所 有 由 
内 部 的 寄存 器 都 是 16 位 。 与 ARMv8 不 同 的 是 ， 其 寄存 器 都 意 指 今 用 作 地 址 或 数据 的 
是 专用 的 ， 因 此 8086 并 不 是 通用 寄存 器 ( General-Purpose | 寄存 器 。 
Register，GPR) 体系 结构 。 

1980 年 : Intel 8087 浮 点 协 处 理 器 问世 。 该 体系 结构 在 8086 的 基础 上 扩展 了 60 条 浮 
点 指令 ， 并 依赖 于 栈 而 非 寄存 器 ( 见 2.22 节 和 3.7 节 )。 

1982 年 : 80286 在 8086 的 基础 上 将 地 址 空间 扩展 到 24 位 ， 设 计 了 一 种 精细 的 内 存 映 
射 和 保护 模式 ( 见 第 5 章 )， 并 增加 了 一 些 指令 来 丰富 指令 集 以 便 处 理 保护 模式 。 

1985 年 : 80386 将 80286 结构 扩展 到 32 位 。 除 了 32 位 的 寄存 器 和 32 位 的 地 址 空间 
之 外 ，80386 也 增加 了 一 些 新 的 寻 址 模式 和 额外 的 操作 。 扩 展 的 指令 使 得 80386 几乎 
就 是 通用 寄存 器 机 器 。 此 外 ， 除 分 段 寻 址 之 外 ，80386 还 增加 了 对 页 的 支持 (参见 第 
5 章 )。 与 80286 一 样 ，80386 也 提供 了 一 种 模式 ， 能 够 不 做 改动 而 执行 8086 的 程序 。 
1989 一 1995 年 ; 1989 年 80486 发 布 ,1992 年 Pentium 发 布 ,1995 年 Pentium Pro 发 布 。 
这 些 处 理 器 仅 在 用 户 可 见 的 指令 集中 加 入 了 4 条 指令 ， 以 期 获得 更 高 的 性 能 。 其 中 三 
条 指令 用 于 多 处 理 技术 (参见 第 6 章 )， 另 一 条 为 条 件 移动 (conditional move) 指令 。 
1997 年 : Pentium 和 Pentium Pro 出 产后 ，Intel 公司 宣布 将 用 多 媒体 扩展 指令 MMX 
(Multi Media Extension) 来 扩展 Pentium 和 Pentium Pro 的 体系 结构 。 新 的 指令 集 包 
含 57 条 指令 ,使 用 浮 点 栈 来 加 速 多 媒体 和 通信 应 用 程序 。MMX 指令 可 以 一 次 处 理 
多 个 短 数据 元 素 ， 即 传统 意义 上 的 单 指令 多 数据 ( Single Instruction，Multiple Data， 
SIMD) 体系 结构 (参见 第 6 章 )。 而 Pentium 下 没有 引入 任何 新 指令 。 

1999 年: Intel 添 加 了 另外 70 条 指令 ， 即 SSE ( Streaming SIMD Extension)， 作 为 
Pentium 亚 的 一 部 分 。 主 要 的 变化 是 增加 了 8 个 独立 的 寄存 器 ， 将 其 宽度 增加 到 128 
位 ， 并 且 增 加 了 一 个 单 精度 浮 点 数据 类 型 。 因 此 ，4 个 32 位 的 浮 点 操作 可 以 并 行 执 
行 。 为 了 提高 内 存 性 能 ，SSE 包括 了 cache 预 取 指令 以 及 能 够 旁 路 cache 并 直接 写 内 
存 的 流 存储 (streaming store) 指令 。 

2001 年 : Intel 增加 了 另外 144 条 指令 ， 称 为 SSE2。 新 增加 的 数据 类 型 是 双 精 度 算术 
类 型 ， 允 许 一 对 64 位 浮 点 操作 同时 执行 。 这 144 条 指令 几乎 都 是 已 有 的 对 64 位 数据 
并 行 操作 的 MMX 和 SSE 指令 的 变形 。 这 种 变化 不 仅 允 许 更 多 的 多 媒体 操作 ， 并 且 
与 单独 的 栈 架构 相 比 ， 编 译 器 多 了 一 个 新 的 浮 点 操作 目标 。 编 译 器 可 以 像 其 他 计算 机 
那样 选择 用 8 个 SSE 寄存 器 来 作为 浮 点 寄存 器 。 这 种 变化 加 强 了 Pentium 4 (第 一 款 
包括 了 SSE2 指令 的 微 处 理 器 ) 的 浮 点 性 能 。 

2003 年 : 这 次 男 一 家 公司 而 不 是 Intel 改进 了 x86 体系 结构 。AMD 提出 了 一 系列 结 
构 扩 展 技术 把 地 址 空间 从 32 位 增加 到 64 位 。 与 1985 年 80386 将 地 址 空间 从 16 位 扩 
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展 到 32 位 的 转变 类 似 ，AMD64 将 所 有 寄存 器 都 拓宽 到 64 位 ， 并 且 将 寄存 器 的 数量 
增加 到 16 个 ， 同 样 也 把 128 位 宽 的 SSE 寄存 器 的 数量 也 增加 到 了 16 个 。ISA 的 主要 
变化 是 新 增加 了 称 为 长 模式 (long mode) 的 新 模式 ， 用 64 位 的 地 址 和 数据 重新 定义 
了 所 有 x86 指令 的 执行 。 为 了 寻 址 更 多 的 寄存 器 ， 指 令 中 增加 了 一 个 新 的 前 级。 根据 
计算 方式 的 不 同 ， 长 模式 还 添加 了 4 一 10 条 新 指令 并 且 去 掉 了 27 条 旧 指 令 。PC 相 
对 数据 寻 址 是 另 一 个 扩展 。AMD64 保持 了 一 个 和 x86 相同 的 模式 (传统 模式 )， 并且 
增加 了 一 个 模式 来 限制 用 户 程序 使 用 x86， 而 允许 操作 系统 使 用 AMD64 (兼容 模式 )。 
这 些 模式 使 其 比 HP/Intel IA-64 结构 更 好 地 从 32 位 过 渡 到 64 位 寻 址 。 
2004 年 : Intel 向 AMD64 届 服 ， 重 新 标记 了 其 扩展 64 位 内 存 技术 (Extended Memory64 
Technology，EM64T)。 主 要 区 别 是 Intel 增加 了 一 个 128 位 的 原子 比较 和 交换 指令 ， 
可 能 应 该 包括 在 AMD64 中 。 同 时 ，Intel 发 布 了 新 一 代 多 媒体 扩展 指令 。SSE3 添加 
了 13 条 指令 来 支持 复杂 算术 运算 、 数 组 结构 上 的 图 形 操作 、 视 频 编码 、 浮 点 转换 以 
及 线程 同步 ( 见 2.11 节 )。AMD 在 后 续 的 芯片 中 加 入 了 SSE3， 并 在 AMD64 中 增加 
了 原来 缺少 的 原子 交换 指令 ， 从 而 和 Intel 保持 二 进 制 兼容 。 
2006 年 : Intel 发 布 了 54 条 新 指令 作为 SSE4 指令 集 扩展 的 一 部 分 。 这 些 扩展 调整 了 
绝对 差 求 和 、 数 组 结构 的 点 积 、 罕 数据 到 宽 数据 的 符号 或 零 扩 展 以 及 统计 等 。 此 外 ， 
还 增加 了 对 虚拟 机 的 支持 ( 见 第 5 章 )。 
2007 年 : AMD 发 布 了 170 条 指令 作为 SSE5 的 一 部 分 ， 包括 46 条 基本 指令 集 的 指 
令 ， 并 增加 了 像 ARMv8 那样 的 3 操作 数 指令 。 
2011 年 : Intel 发 布 了 高 级 向 量 扩展 ( Advanced Vector Extension ) 指令 ， 将 SSE 寄存 
器 宽度 从 128 位 扩展 到 256 位 ， 从 而 重新 定义 了 250 条 指令 并 添加 了 128 条 新 指令 。 

这 段 历 史 说 明了 兼容 性 这 个 “人 金 手 钳 ” 对 x86 的 影响 ， 每 个 阶段 累积 下 来 的 软件 非常 重 
要 ， 体 系 结构 的 重大 变化 不 能 对 已 有 软件 产生 危害 。 

无 论 x86 结构 有 多 失败 ， 该 指令 集 仍 然 极 大 地 推动 了 PC 时 代 的 发 展 ， 并 且 在 后 PC 时 
代 的 云 中 占 主 导 地 位 。 虽 然 x86 芯片 每 年 3.5 亿 的 产量 相对 于 ARM 芯片 的 140 亿 小 很 多 ， 
但 是 许多 公司 都 热衷 于 控制 这 个 市 场 。 尽 管 如 此 ， 这 个 多 变 的 家 族 带 来 的 是 一 个 难以 解释 并 
且 无 法 让 人 喜欢 的 体系 结构 。 

请 鼓 起 勇气 来 面 对 你 将 要 看 到 的 内 容 ! 阅读 本 节 时 ， 你 不 需要 担心 编写 x86 程序 ， 本 节 
的 目的 是 让 读者 熟悉 这 一 世界 上 最 流行 的 桌面 机 体系 结构 的 优 缺 点 。 

本 节 主 要 关注 来 自 80386 的 32 位 指令 子 集 ， 而 不 是 整个 16 位 、32 位 和 64 位 指令 集 。 
我 们 从 寄存 器 和 寻 址 模式 开始 阐述 ， 然 后 是 整数 操作 ， 最 后 是 指令 编码 。 


2.18.2 x86 寄存 器 和 数据 寻 址 模式 


80386 的 寄存 器 展示 了 指令 集 的 进化 (图 2-33 )。80386 将 所 有 16 位 寄存 器 (除了 段 寄 
存 器 ) 扩展 为 32 位 ， 并 在 名 字 前 用 前 级 来 标示 32 位 版 本 。 这 些 寄存 器 通常 被 称 为 通用 寄 
存 器 ( GPR)。80386 只 有 8 个 通用 寄存 器 。 这 意味 着 ARMv8 和 MIPS 程序 可 以 使 用 的 寄存 
器 数量 是 其 4 倍 ， 而 ARMv7 可 以 使 用 的 是 其 2 倍 。 

从 图 2-34 可 以 发 现 ， 算 术 、 光 辑 以 及 数据 传输 指令 都 是 二 操作 数 指令 。 这 里 有 两 个 重 
要 的 不 同 之 处 。 首 先 ，x86 的 算术 和 你 辑 指令 中 有 一 个 操作 数 必须 既是 源 操作 数 又 是 目的 操 
作 数 ， 而 ARMv7、ARMv8 和 MIPS 允许 源 操作 数 和 目的 操作 数 是 不 同 的 寄存 器 。 这 种 限制 
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给 有 限 的 寄存 器 的 使 用 带 来 了 更 多 压力 ， 因 此 一 个 源 寄存 器 必须 被 改变 。 第 二 个 重要 的 不 同 
之 处 在 于 其 中 一 个 操作 数 可 以 在 存储 器 中 。 如 此 , 实际 上 任何 指令 都 可 能 有 一 个 操作 数 在 存 
储 器 中 ， 这 与 ARMv7、ARMv8 和 MIPS 不 同 。s 

名 称 0 用 轿 


GPR0 
GPR1 

GPR 2 

GPR3 

GPR 4 

GPR5 

GPR6 

GPR7 
代码 段 指针 

栈 指针 ( 栈 项 ) 
数据 段 指针 0 
数据 段 指针 1 
数据 段 指针 2 
数据 段 指针 3 






EIP 指令 指针 (PC ) 
EFLAGS 条 件 码 





























图 2-33 80386 寄存 器 组 。 从 80386 开始 ， 最 上 面 的 8 个 寄存 器 被 扩展 到 32 位 并 可 以 作 
为 通用 寄存 器 使 用 
寄存 器 寄存 器 
寄存 器 立即 数 
寄存 器 存储 器 
存储 器 寄存 器 
存储 器 | 立即 数 
图 2-34 ” 算术、 逻辑 和 数据 传输 指令 的 指令 类 型 。x86 允许 上 表 所 示 的 组 合 。 唯 一 的 限 
制 是 没有 存储 器 - 存储 器 模式 。 立 即 数 可 以 是 8 位 、16 位 或 32 位 长 ， 寄 存 器 





可 以 是 图 2-33 中 14 个 主要 寄存 器 中 的 任意 一 个 (不 能 是 EIP 或 EFLAGS) 


数据 的 存储 器 寻 址 模式 (下面 会 详细 阐述) 在 指令 中 提供 两 种 大 小 的 地 址 。 这 种 所 谓 的 
偏 移 可 能 是 8 位 或 32 位 。 

虽然 一 个 存储 器 操作 数 可 以 使 用 任何 寻 址 模式 ， 但 是 每 种 模式 能 够 使 用 哪些 寄存 器 是 有 
限制 的 。 图 2-35 展示 了 x86 寻 址 模式 以 及 每 种 模式 下 哪些 GPR 不 能 使 用 ， 并 说 明 如 何 使 用 
ARMv8 指令 来 达到 相同 的 效果 。 


日 ARMv7、ARMv8 和 MIPS 的 算术 、 腔 辑 以 及 数据 传输 指令 的 操作 数 没 有 存储 器 型 的 。 一 一 译 者 注 
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寄存 器 间接 寻 址 地 址 在 寄存 器 中 





不 能 为 ESP 或 EBP | LDUR X1 ，[X2,#40] 


| LDUR X1, [xX2,#40 
基 址 以 及 8 位 或 32 位 偏 移 “地址 是 基 址 寄存 器 与 偏 移 量 之 和 | 不 能 为 ESP # 《= Et 人 








地 址 是 基 址 + ( 2rmRz#x 索 引 ) ，| 基 址 ; 任何 GPR |MUL X0,，X2, #8 
ADD X0。X0，X1 

扩展 因子 是 0、1、2 或 3 不 能 为 ESP LDUR Xi, CX0,01 
i | MUL X0, X2, #8 
基 址 加 8 位 或 32 位 偏 移 量 dd 和 : 任何 GPR | ADD X0, X0, Xl 
加 可 扩展 索引 寻 址 = 偏 移 量 ， 扩 展 因子 是 0、1、2 或 3 | 索引 ; 不 能 为 ESP | LDUR X1，[X0,#40] 内 <= 9-bit| 
| displacement _ 


基 址 加 可 扩展 案 引 寻 址 > 


























图 2-35 x86 的 32 位 寻 址 模式 及 其 寄存 器 使 用 限制 以 及 等 价 的 ARMv8 代码 。 基 址 加 可 扩展 索引 寻 址 
模式 在 LEGv8 和 MIPS 中 并 没有 。x86 中 包含 该 寻 址 模式 ， 以 避免 将 寄存 器 中 的 指数 转变 为 
字 节 地 址 ( 见 图 2-26 和 图 2-28 ) 的 乘 8 (扩展 因子 为 3 ) 操作 。 扩 展 因子 为 1 用 于 16 位 数据 ， 
2 用 于 32 位 数据 。 扩 展 因子 为 0 意味 着 该 地 址 不 需要 扩展 。 如 果 第 二 种 或 第 四 种 模式 中 偏 移 
量 长 度 超过 9 位 ， 那 么 等 价 的 ARMv8 需要 更 多 的 指令 。MOV2 加 载 16 位 的 偏 移 量 ， 并 且 由 
ADDI 将 高 地 址 与 基 址 寄存 器 X2 相 加 ; 或 者 MOVZ 后 面 跟随 一 条 MOVK 指令 获得 32 位 地 址 ， 
并 且 加 上 一 条 ADDI 指令 将 该 地 址 与 基 址 寄存 器 Xx2 相 加 (Intel 的 基 址 寻 址 模式 有 两 个 不 同 的 
名 字 一 一 基 址 和 索引 (Based and Indexed)， 两 者 本 质 上 相同 ， 我 们 在 这 里 将 它们 合并 ) 


2.18.3 x86 整数 操作 


8086 提供 对 8 位 ( 字 节 ) 和 16 位 ( 字 ) 数据 类 型 的 支持 。80386 在 x86 结构 中 加 入 了 32 
位 的 地 址 和 数据 ( 双 字 )。(AMD64 又 增加 了 64 位 地 址 和 数据 ， 称 为 四 字 ; 本 节 关 注 80386。) 
数据 类 型 的 区 别 适 用 于 寄存 器 操作 以 及 存储 器 访问 。 

几乎 所 有 操作 都 能 在 8 位 和 一 个 更 长 的 数据 上 进行 ， 这 个 数据 的 大 小 由 寻 址 模式 决定 ， 
可 能 是 16 位 或 32 位 。 

显然 ， 有 些 程序 希望 能 操作 所 有 三 种 长 度 的 数据 ， 于 是 80386 结构 提供 了 一 种 方便 的 途径 
来 指定 每 一 种 形式 ， 而 不 需要 显著 增加 代码 的 容量 。 大 多 数 程序 中 16 位 或 32 位 的 数据 占 绝 大 
多 数 ， 因 此 可 以 设 定 一 个 默认 的 长 度 。 这 个 默认 的 数据 长 度 由 代码 段 寄 存 器 中 的 一 位 指定 。 若 
要 改变 默认 数据 长 度 ， 就 在 指令 前 附加 一 个 8 位 的 前 缓 ， 告 诉 机 器 这 条 指令 使 用 其 他 数据 长 度 。 

使 用 前 组 的 方法 是 从 8086 借鉴 过 来 的 ，8086 允许 使 用 多 个 前 级 来 改变 指令 的 行为 。 最 
初 的 三 个 前 缀 包括 重 写 默认 的 段 寄 存 器 ， 给 总 线 加 锁 支持 同步 ( 见 2.11 节 ), 或 重复 后 面 的 
指令 直到 寄存 器 ECX 的 值 减少 到 0。 最 后 一 个 前 级 配合 字 节 移动 指令 使 用 ， 以 移动 可 变数 目 
的 字 节 。80386 同样 加 入 了 一 个 前 级 来 改变 默认 的 地 址 长 度 。 

x86 整数 操作 主要 分 为 四 类 : 

e 数据 传输 指令 ,包括 move、push 和 pop。 

。 算术 和 逻辑 指令 ， 包 括 测试 、 整 数 和 十 进 制 算 术 运算 。 

。 控制 流 ， 包 括 条 件 分 支 、 无 条 件 分 支 ( 跳 转 )、 调 用 和 返回 。 

e 字符 串 指令 . 包括 字符 串 移 动 和 字符 串 比 较 。 

除了 算术 和 逮 辑 操作 指令 允许 目的 操作 数 既 可 以 是 寄存 器 也 可 以 是 存储 器 外 ， 前 两 种 类 
型 没有 值得 关注 之 处 。 图 2-36 展示 了 一 些 典 型 的 x86 指令 及 其 功能 。 

日 、 寄 存 器 相对 寻 址 。 一 一 译 者 注 

日 可 扩展 变 址 寻 址 。 一 译 者 注 

四 ”相对 基 址 可 扩展 变 址 寻 址 。 一 译 者 注 
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功能 






































je name if equal (condition code) (EIp=name)}: 
EIP-128<= name < EIP+128 

| jnp name EIP=name 

|cali name |Sp=sp-4; MLSp]=EIP+5; EIP=name: 

movw EBX, [EDI+45] |EBX-MCLEDI+45] 

push ES1 Sp=Sp-4; MLSP]-ES1 | 

pop EOL EDI=M[SP]: Sp=Sp+4 

addEAX,#6765 |EAX=EAX+6765 

test EDX ,#42 Set condition code (flags) with EDXand 42 

movsl MLEDI J=MCESI]; 

EC EDI=EDI+4; ESI=ESI+4 





图 2-36 一 些 典 型 的 2 x86 指令 及 其 功能 。 常 用 操作 的 列表 如 图 2-37 所 示 。CALL 将 下 一 
条 指令 的 EIP 保存 在 栈 上 (EIP 是 Intel 的 程序 计数 器 ) 


和 ARMv7 一 样 ，x86 的 条 件 分 支取 决 于 条 件 码 或 标志 位 。 条 件 码 作为 一 个 操作 的 副 作 
用 被 设置 ， 大 部 分 用 于 将 结果 与 0 比较 。 然 后 ， 分 支 指令 测试 条 件 码 。PC 相对 的 分 支 地址 
必须 以 字 节 数 来 指定 ， 和 ARMv7、ARMv8 以 及 MIPS 不 同 ,80386 的 指令 并 不 都 是 4 字 节 长 。 

字符 串 指令 是 x86“ 祖 先 ”8080 的 一 部 分 ， 大 部 分 程序 中 都 不 使 用 。 这 些 指令 常常 比 同 
等 功能 的 软件 例 程 要 慢 ( 见 2.20 节 的 廖 误 ) 。 






















































































图 2-37 列 出 了 一 些 整数 x86 指令 。 大 部 分 指令 都 同时 有 字 节 和 字 格 式 。 159 
BN 
| 控制 指令 条 件 和 无 条 件 分 支 

jnz, jz SR JNE ( for JNE ) 和 JE ( for J7 ) 都 是 可 用 的 
jmp 无 条 件 跳 转 一 一 8 位 或 16 位 偏 移 量 
call 过 程 调用 一 -16 位 偏 移 量 ; 返回 地 址 压 入 栈 中 
ret 从 栈 中 弹出 返回 地 址 并 距 转 到 该 处 | 
loop 循环 分 支 一 递减 ECX;， 如 果 ECX 非 零 ， 则 跳 转 到 EIP+8 位 偏 移 处 | 
| 数据 传输 指令 | 在 寄存 器 之 间或 寄存 器 和 存储 器 之 间 传 递 数据 
move 在 两 个 寄存 器 之 间或 寄存 器 和 存储 器 之 间 传 递 数据 | 
push, pop 将 源 操作 数 压 栈 ; 从 栈 顶 弹出 操作 数 到 坷 存 器 中 
les 从 存储 器 中 加 载 ES 和 GPR 
算术 、 运 辑 指令 使 用 数据 寄存 器 和 存储 器 的 算术 和 逻辑 操作 
add, sub Re 从 目的 操作 数 中 减 去 源 操作 数 ， 寄 存 器 -存储 
cmp 比较 源 和 目的 操作 数 ; 寄存 器 -存储 器 格式 
sh1, shr, rcr | 左 移 ; 逻辑 右 移 ; 循环 右 移 并 用 条 件 码 真 充 
cbw 将 EAX 最 右 8 位 字 节 转换 成 EAX 最 右 16 位 宇 
test 将 源 操作 数 和 目的 操作 数 进行 水 辑 与 ， 并 设置 条 件 码 
inc, dec 递增 目的 操作 数 ， 递 减 目的 操作 数 
| or,. xor 逻辑 或 ; 异 或 ; 寄存 器 -存储 器 格式 
| 字符 串 指令 在 字符 串 操作 数 之 间 移 动 ; 长 度 由 重复 前 缀 给 出 四 
| movs 通过 递增 ESi 和 EDI 从 源 字符 串 复制 到 目的 字符 捉 ; 可 能 重复 
1ods 从 字符 素 中 取 字 节 、 字 或 双 字 到 寄存 器 EAX 
图 2-37 一 些 典 型 的 x86 操作 。 很 多 操作 使 用 寄存 器 - 存储 器 格式 ， 其 中 源 操作 数 或 目 
的 操作 数 可 以 是 存储 器 ， 另 一 个 操作 数 可 以 是 寄存 器 或 立即 数 160 














a12 需 2 间 





2.18.4 ”x86 指令 编码 

把 最 难 的 留 到 最 后 一 一 80386 的 指令 编码 非常 复杂 ， 具 有 多 种 不 同 的 指令 格式 。80386 
指令 长 度 可 以 从 1 字 节 (指令 没有 操作 数 时 ) 到 15 字 节 变化 。 

图 2-38 展示 了 图 2-36 中 几 条 示例 指令 的 格式 。 操 作 码 字 节 中 通常 有 一 位 用 来 表明 操作 数 
是 8 位 还 是 32 位 。 对 于 一 些 指令 ,操作 码 还 可 能 包含 寻 址 模式 和 寄存 器 ， 比 如 很 多 具有 “ 寡 
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存 器 = 寄存 器 操作 立即 数 ” 形 式 的 指令 。 其 他 指令 使 用 一 个 “后 置 字 节 ”(postbyte) 或 额外 的 操 
作 码 字 节 ， 标 记 为 “mod, reg, rm””， 包 含 寻 址 模式 信息 。 该 后 置 字 节 在 寻 址 存储 器 的 很 多 指令 
中 都 有 用 到 。 基 址 加 可 扩展 索引 的 寻 址 模式 使 用 第 二 个 后 置 字 节 ， 标 记 为 “sc, index, base” 。® 


a.JE EIP + displacement 
4 4 8 
























































Condr| ~ 
JE | “tion | Displacement 
b. CALL 
8 32 
CALL Offset 
c.MOV EBX,[EDI+45] 
6 人 8 8 
MOV ldlw R Mm 入 Displacement 
中 PUSH ESI 
5 3 
PUSH | Reg 
e.ADD EAX, #6765 
4 3 1 32 
ADD |Reg|w Immediate 
fTEST EDX, #42 
7 1 8 32 
| TEST |* Postbyte Immediate 








图 2-38 典型 的 x86 指令 格式 。 图 2-39 给 出 后 置 字 节 的 指令 编码 。 很 多 指令 包含 1 位 的 w 字段， 用 于 
说 明 操 作 一 个 字 节 还 是 一 个 双 字 。MoOV 中 的 4 字段 用 于 从 存储 器 中 传 出 或 传人 数据 的 指令 中 ， 
指明 了 传输 方向 。ADD 指令 需要 32 位 的 立即 数字 段 ， 因 为 在 32 位 模式 下 ， 立 即 数 是 8 位 或 
32 位 。TEST 中 的 立即 数字 段 也 是 32 位 长 ， 因 为 在 32 位 模式 下 没有 8 位 的 立即 数 判断 。 总 
的 来 说 ， 指 令 长 度 可 以 从 1 字 节 到 15 字 节 变化 。 较 长 的 长 度 产生 于 额外 的 1 字 节 前 级 ， 具 有 
一 个 4 字 节 的 立即 数 和 一 个 4 字 节 的 偏 移 地 址 ,使 用 2 个 字 节 的 操作 码 ， 并 使 用 可 扩展 索引 
(scaled index) 模式 说 明 符 ， 这 还 需要 增加 一 个 字 节 


图 2-39 展示 了 16 位 和 32 位 模式 下 两 个 后 置 字 节 地 址 说 明 符 的 编码 。 不 幸 的 是 ， 为 了 
全 面 理解 哪些 寄存 器 和 寻 址 模式 可 用 ， 你 需要 查看 所 有 寻 址 模式 的 编码 ， 甚 至 指令 编码 。 
2.18.5 x86 总 结 

Intel 早 于 竞争 对 手 两 年 推出 了 16 位 微 处 理 器 。 尽 管 竞争 对 手 推 出 的 结构 (如 Motorola 68000 ) 


日 模式 , 寄存器， 寄存 器 / 存储 器 。 一 一 译 者 注 
日 扩展 ,索引 ， 基 址 。 一 一 译 者 注 





蔡 令 ， 诸 草 规 的 语言 。 113 





更 为 优秀 ， 但 这 个 领先 使 得 8086 被 选 作 IBM PC 的 CPU。Intel 的 工程 师 普遍 承认 x86 要 比 ARMV7 
和 MIPS 的 计算 机 更 难 制造 ， 但 是 巨大 的 市 场 意味 着 在 PC 时 代 ， AMD 和 Intel 可 以 提供 更 多 的 资 
源 来 克服 额外 的 复杂 性 。 尽 管 x86 存在 很 多 不 足 ， 但 市 场 规模 的 优势 仍 使 得 x86 显得 非常 美好 。 













































































16b | 32b 16b | 32b 16b [32b 16b 32b 
0 AL AX EAX| 0 | addr=BX+S1 | =EAX same Same same same Same 
机 下 cL CX ECX | 1 addr=BX+DI1 | =ECX addr as addr as addr as addras as 
2 | DL Dx EDX| 2 addr=BP+SI | =EDX mod=0 mod=0 mod=0 mod=0 reg 
本 BL | BX EBX| 3 | addr=BP+SI | =EBX +disp8 |+disp8 + disp16 +disp32 field 
4| AH | Sp | ESP| 4 | addr<sl =(sib) |Sitdisp8 | (sibHdisp8 | SHdisp8 |(sib+disp32| ~ 
5 CH | BP EBP| 5 addr=DI =disp32 | Di+disp8 | EBP+disp8 | DI+disp16 | EBP+disp32 
6 | DH | S! | ESI | 6. | addr=disp16| =ESI |BP+disp8 |ESi+disp8 |BP+disp16 |ESI+disp32 
7| BH | D |EDl| 7 |addr=Bx =EDI |BX+disp8 | EDI+disp8 |BX+disp16 |EDI+disp32 
图 2-39 ”x86 第 一 个 地 址 说 明 符 的 编码 : mod, reg, rm。 前 四 列表 示 3 位 的 reg 字段 ， 它 依赖 于 操作 码 中 的 





w 位 以 及 机 器 是 工作 于 16 位 模式 ( 8086 ) 还 是 32 位 模式 ( 80386 )。 其 余 列 解释 了 mod 和 rm 
字段 。3 位 的 rm 字段 依赖 于 2 位 mod 字段 的 值 以 及 地 址 的 大 小 。 基 本 上 ， 地 址 计算 所 使 用 的 寄 
存 器 列 在 第 六 和 七 列 中 ， 对 应 于 mod=0 和 mod=l 时 加 上 8 位 的 偏 移 量 ， 以 及 mod=2 时 加 上 16 
位 或 32 位 的 偏 移 量 ， 取 决 于 寻 址 模式 。 例 外 的 情况 有 : 16 位 模式 下 当 mod=1 或 mod=2 时 ， 
rm=6， 选 择 BP 加 上 偏 移 ; @ 32 位 模式 下 当 mod=1 或 mod=2 时 , rm=5， 选 择 EBP 加 上 偏 移 量 ; 
@@ 32 位 模式 下 nm=4，mod 不 等 于 3 时 ，(sib) 表示 使 用 图 2-35 中 的 可 扩展 索引 模式 。 当 mod=3 
时 ，zrm 字段 指定 一 个 寄存 器 ， 与 w 位 组 合 在 一 起 和 reg 字段 使 用 相同 的 编码 
x86 的 可 取 之 处 在 于 ， 其 最 常 使 用 的 体系 结构 组 成 部 分 是 不 难 实现 的 ， 从 1978 年 开始 
AMD 和 Intel 就 通过 整数 程序 性 能 的 快速 改进 证 实 了 这 一 点 。 为 了 获得 这 样 的 性 能 ， 编 译 器 
必须 避免 那些 难于 快速 实现 的 体系 结构 部 分 。 
然而 ， 在 后 PC 时 代 ， 虽 然 有 大 量 的 体系 结构 和 制造 专家 ， 但 是 x86 在 个 人 移动 设备 市 
场 中 仍 不 具有 竞争 力 。 


2.19 ”实例 : ARMv8 指令 集 的 其 他 部 分 


图 2-40 列 出 了 ARMv8 指令 集中 每 类 指令 的 汇编 语言 以 及 机 器 语言 的 数量 ， 从 而 展示 了 
整个 ARMv8 结构 的 规模 。 第 3 章 将 描述 结构 中 的 浮 点 、 乘 除 以 及 SIMD 部 分 ,第 5 章 将 给 
出 系统 指令 。 本 节 重 点 关注 整数 操作 和 分 支 。 
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整 型 指令 49 | 145 | 74 [105| - | - [123 | 250 
浮 点 型 和 整 型 乘除 指令 0 18 63 | 156 | — = | 53 |4174 
SIMD/vector 指 令 16 | 166 | 229 |371| — | - | 245 | 537 
系统 /特殊 指令 11 55 | 52 | 40 | -= | -= | 6a | 95 
Es 人 一 二 区 二 | | 23 |14 | 23 | 14 
共计 76 384 | 418 | 672 | 23 | 14 | 517 | 1070 























图 2-40 每 种 类 型 的 指令 数量 ， 对 于 每 种 指令 类 型 ， 汇 编 语 言 指令 数量 ( AL) 和 机 器 语言 指令 数量 
(ML) 分 别 统计 。 该 统计 基于 ARM 体系 结构 参考 手册 《 ARMv8, for ARMv8-A architecture 
profile, beta edition, 2014》 并 略微 做 了 调整 ， 以 便 和 本 书 中 的 汇编 语言 指令 版 本 匹配 。 例 如 ， 
本 书 给 出 了 单 精度 和 双 精度 浮 点 算术 指令 的 不 同 汇编 语言 指令 ( FADDS, FADDD， 等 等 ) 但 
ARMvg 实际 只 有 一 种 版 本 (FADD)， 通 过 寄存 器 名 称 选择 操作 码 











162 














163 








114 浸 2 苹 








机 器 指令 的 数量 比 汇编 指令 数量 多 很 多 ， 其 中 一 个 原因 是 ARMv8 在 一 个 结构 中 同时 包 
含 了 32 位 和 64 位 指令 版 本 。 汇 编 语言 中 ， 程 序 员 用 名 为 Wo ，W1，… 的 寄存 器 而 不 是 X0， 
X1，… 来 表示 32 位 操作 。 因 此 ，64 位 操作 

ADD X9 ,X21,X9 
可 以 通过 以 下 形式 转化 成 一 条 32 位 指令 : 

ADD W9,W21,W9 

2-40 将 上 述 形 式 算 作 一 条 汇编 语言 指令 ， 但 是 两 条 机 器 指令 ， 因 为 这 两 条 指令 有 不 
同 的 操作 码 。 

本 节 剩 余部 分 将 解释 前 面 章节 未 涉及 的 ARMv8 指令 。 同 样 也 会 向 读者 展示 图 2-1 中 的 
36 条 LEGv8 指令 如 何 增加 到 完整 ARMv8 指令 集中 的 146 条 指令 ， 即 图 2-40 中 第 一 列 的 
123 条 汇编 语言 指令 和 第 二 到 最 后 一 列 中 的 23 条 分 支 指令 。 


2.19.1 完整 的 ARMv8 整数 算术 逻辑 指令 


ARMv8 指令 集 独 一 无 二 的 一 点 是 所 有 算术 和 逻辑 运算 操作 的 第 二 个 寄存 器 可 以 在 运算 
之 前 进行 移 位 。 移 位 操作 包括 逻辑 左 移 、 逻 辑 右 移 、 算 术 右 移 和 循环 右 移 。( 对 于 12 位 立 
即 数 指令 ， 只 有 一 种 移 位 操作 ， 即 逻辑 左 移 12 位 ,) 虽然 汇编 器 有 名 为 LSL、LSR、SRA 和 
ROR 的 移 位 指令 ， 但 这 些 只 是 具有 单纯 移 位 功能 的 指令 的 伪 指令 形式 。 在 LEGv8 中 , 我 们 
只 选取 了 那些 将 移 位 数量 字段 设置 为 0 的 指令 版 本 ， 使 得 第 二 操作 数 保持 不 变 。 但 是 完整 的 
ARMv8 指令 集 允 许 移 位 操作 作为 算术 和 逻辑 指令 的 一 部 分 。 

图 2-41 列 出 了 完整 的 ARMv8 指令 集中 所 有 74 条 整数 操作 的 汇编 语言 指令 。 我 们 从 
图 2-1 给 出 的 LEGv8 指令 集中 的 20 条 整数 指令 开始 。 首 先 ， 总 的 汇编 指令 数 包 括 上 述 伪 指 
令 CMP、CMPI 和 MOV， 因 此 ， 指 令 总 数 增加 至 23 条 。 此 外 ,还 有 5 条 伪 指 令 基于 LEGv8 
指令 集 一 一 negate，negate and set flags，compare negative，compare negativeimmediate 和 test 
immediate， 指 令 数 量 增加 至 28 条 。 

为 了 支持 对 更 罕 的 数据 类 型 的 算术 操作 ， 有 6 条 指令 允许 通过 符号 扩展 或 者 零 扩 展 来 扩 
展 第 二 个 操作 数 的 数据 长 度 至 全 尺寸 。 寄 存 器 扩展 (extend-register) 指令 对 字 节 、 半 字 和 字 
进行 处 理 ， 指 令 数量 增加 至 34 条 。 

为 了 支持 操作 数 宽度 大 于 一 个 双 字 的 加 法 和 减法 指令 ， ARM 增加 了 6 条 汇编 指令 用 于 
加 减 前 一 操作 的 进位 。 因 此 ， 第 一 条 指令 用 操作 数 的 右 半 部 分 进行 常规 加 法 并 设置 条 件 码 
(ADDS), 第 二 条 指令 用 操作 数 的 左 半 部 分 做 加 法 时 加 上 前 一 操作 产生 的 进位 ( ADC)。 这 6 
条 指令 使 得 指令 总 数 增 至 40 条 。 

逻辑 指令 ( AND，aNDS，ORR，EOR) 同样 也 有 另外 的 版 本 ， 第 二 操作 数 是 补 码 ， 即 0 
变 成 1，1 变 成 0。 包括 新 的 伪 指 令 在 内 ， 这 一 变化 又 增加 了 6 条 指令 ， 指 令 总 数 增 至 46 条 。 

除了 逻辑 左 移 和 逻辑 右 移 指令 外 ，ARMv8 还 有 两 种 移 位 指令 。ASR 做 的 是 算术 右 移 ， 
移 位 时 复制 扩展 符号 位 ，ROR 将 各 个 位 循环 右 移 ， 即 从 右边 移出 的 位 数 补充 在 左边 。 尽 管 
LEGv8 中 并 没有 列 出 各 种 类 型 的 移 位 指令 ， 但 是 所 有 移 位 指令 都 有 一 种 新 版 本 ， 即 将 移动 的 
位 数 存 人 寄存 器 中 而 不 是 指令 的 立即 数 中 。 这 种 版 本 的 移 位 指令 新 增加 了 6 条 指令 ， 指 令 总 
数 增 至 52 条 。 

MOV 也 有 宽 指 令 版 本 MOVN， 将 16 位 常数 补足 为 64 位 , 但 其 余 48 位 是 1 而 不 是 0， 并 


荔 令 : 计算 庆 的 语言 115 





且 16 位 立即 数字 段 也 可 以 补 齐 。 因 此 ， 指 令 总 数 增 至 53 条 。 
为 了 实现 对 位 的 操作 ， 完 整 的 ARMv8 指令 集 包 含 了 10 条 指令 ， 能 够 从 寄存 器 中 提取 


位 字段 ， 


然后 插 人 另 一 个 寄存 器 中 。 这 些 指令 又 产生 5 条 伪 指 令 ， 可 以 通过 符号 扩展 或 零 扩 


展 将 较 罕 的 操作 数 扩展 为 寄存 器 的 宽度 。 最 后 ， 还 有 6 条 “位 翻转 ” (bit twiddling) 指令 ， 这 
些 指令 统计 高 位 的 0 或 者 1 的 个 数 ， 并 且 将 位 或 者 字 节 的 顺序 翻转 。 现 在 ， 完 整 的 ARMYv8 






















































































































































































指令 集 汇 编 语言 中 有 74 条 整数 操作 指令 。 
AD0 Add | ANDI Bitwise AND Immediate 
ADDS Add and set flags | 远 枪 ANDIS | Bitwise AND and set flags Immediate 
算术 | SUB Subtract 运算 “| 0RRI _| Bitwise inclusive OR Immediate 
运算 | SUBS Subtract and set flags 【立即 数 ) | EORI Bitwise exclusive OR Immediate 
(寄存 器 ) | Chp Compare TSTT_ | Test bits Immediate 
CHN |Compare negative | LSL | Logical shiftleft Immediate 
NEG Negate 移 位 | LSR Logical shift right Immediate 
NEGS | Negate and set flags fn i ASR Arithmetic shift right Immediate 
ADDI Add Immediate ROR | Rotate right Immediate 
ADDIS “| Add and set flags Immediate _ | LSRV | Logicalshiftrightregister | 
人 SUBI Subtract Immediate LSLV Logical shift left register 
(立即 数 ) | SUBIS ”| Subtract and set flags Immediate | ASRV Arithmetic shift right register 
CMPI Compare Immediate | RORY Rotate right register _ 
CMNI |Compare negative Immediate | MOVZ “| Move wide with zero 
ADD Add Extended Register 移动 宽 | MOVK Move wide with keep 
ADDS Add and set flags Extended 立即 数 | MOVN | Move wide with NOT _ 
2 SuB Subtract Extended Reglster NOV | Move reglster 这 
扩展 “| SUBS | Subtract and set flags Extended BFM | Bitfield move 
CMP Compare Extended Register |_SBFM Signed bitfield move 
| CMN Compare negative Extended UBFM Unsigned bitfield move (32-bit) 
ADC Add with carry | BFI Bitfield insert 
带 进 | ADCS |Add with cany and set fags | 位 字段 | BFXIL | Bitfield extract and insert low 
位 的 “| SBC Subtract with carry | 二 SBFIZ _| Signed bitfield insert in zero 
| 算术 | SBCS Subtract with carry and set flags SBFX Signed bitfield extract 
运算 | NGC Negate with cary | UBFIZ | Unsigned bitfield insert in zero 
Le NGCS |Negate with carry and set flags UBFX | Unsigned bitfield extract- 
|_AND Bitwise AND EXTR _| Extract register from pair 
ANDS Bitwise AND and set flags SXTB | Signextend byte 
ORR Bitwise inclusive OR | 符号 SXTH | Sign-extend halfword 
逻辑 | EOR Bitwise exclusive OR 扩展 “| SATW | Signextend word 
人 BIC Bitwise bit clear | UXTB _ | Unsigned extend byte 
BICS | Bitwise bit clear and set flags UN | Unsigned extend halfword 
ORN Bitwise inclusive OR NOT CLS Count leading sign bits 
| EoN Bitwise exclusive OR NOT [cz Count leading zero bits 
LN Bitwise NOT | 位 操作 | RBIT Reverse bit order 
| rs7 Test bits REV Reverse bytes in register 
四 REV16 | Reverse bytes in halfwords 
| REV32 “| Reverses bytes in words 
图 2-41 完整 ARMv8 指令 集中 整数 操作 的 汇编 语言 指令 。 粗 体 代表 该 指令 也 在 LEGv8 中 ， 和 斜体 代表 


是 一 条 伪 指 令 ， 粗 斜体 表示 一 条 同时 存在 于 LEGv8 中 的 伪 指 令 
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2.19.2 ”完整 的 ARMv8 整数 数据 传输 指令 


本 书 并 没有 给 出 LEGv8 中 10 条 整数 数据 传输 指令 所 有 可 用 的 寻 址 方式 。 前 面 描述 的 寻 
址 方式 在 ARMv8 的 术语 中 称 为 不 可 扩展 有 符号 立即 数 偏 移 (unscaled signed immediate offset)。 
下 面 为 另外 五 种 : 

e 基 址 加 可 扩展 12 位 无 符号 立即 数 偏 移 。 

。 基 址 加 64 位 寄存 器 偏 移 ， 扩 展 可 选 。 

。 基 址 加 32 位 扩展 寄存 器 偏 移 ， 扩 展 可 选 。 

。 通过 不 可 扩展 的 9 位 有 符号 立即 数 偏 移 进行 前 索引 。 

。 通过 不 可 扩展 的 9 位 有 符号 立即 数 偏 移 进行 后 索引 。 

前 三 种 寻 址 模式 的 “扩展 ”选项 以 字 节 传输 的 数据 大 小 对 立即 数字 段 中 或 寄存 器 中 的 地 
址 进行 加 倍 或 扩展 。 一 般 都 希望 地 址 是 数据 大 小 的 倍数 ， 这 些 寻 址 方式 由 硬件 实现 ， 因 此 程 
序 员 无 需 将 寄存 器 中 的 索引 值 转换 成 字 节 地 址 。 这 些 操作 也 增加 了 指令 中 立即 数字 段 的 表示 
范围 。 因 此 ， 如 果 X11 中 保存 的 数 是 100 000e， 那 么 

LDR X10, [X11, #16] // scaled addressing mode 


指令 从 地 址 100 128t。 ( 100 000ten + 8x 16 ) 中 取出 双 字 ( 8 个 字 节 ) 存 和 人 寄存 器 X10 中 。 
第 二 种 寻 址 方式 计算 的 地 址 是 两 个 寄存 器 的 简单 相 加 ， 其 中 第 二 操作 数 可 选 左 移 1 位 、2 
位 或 3 位 ， 即 乘 以 2、4 或 8。 因此， 如 果 X11 中 数值 是 100 000e。，x12 中 是 1000e。， 那 么 
LDR X10, [X11, X12 LSL #3] // base + register, scaled 


指令 将 从 地 址 108 000wn( 100 000wen + 23x1000 ) 取出 一 个 双 字 (8 个 字 节 ) 存 人 X10 中 。 
第 三 种 寻 址 方式 简单 地 使 用 一 个 32 位 的 寄存 器 (如 W12)， 而 不 是 一 个 64 位 的 寄存 器 (如 
X12)， 扩 展 操作 相同 。 

最 后 两 种 寻 址 模式 将 改变 基 址 寄存 器 作为 地 址 计算 的 一 部 分 。 一 个 应 用 案例 是 ， 如 果 依 
次 访问 顺序 数组 的 元 素 ， 地 址 自 增 可 以 作为 寻 址 模式 的 一 部 分 实现 ， 而 不 是 使 用 单独 的 加 减 
指令 。 因 此 ， 如 果 X11 中 保存 的 数 是 100 000e， 那 么 

LDR X10, [X11,#16]! // pre-indexed addressing mode 


指令 将 从 地 址 100 016 wen 处 取出 一 个 双 字 (8 个 字 节 ) 存 人 寄存 器 X10 中 ,然后 将 X11 的 值 
改 为 100 016wn。 男 一 方面 ， 


LDR X10, [X11],#16 // post-indexed addressing mode 


这 条 指令 从 地 址 100 000,e 处 取出 一 个 双 字 ( 8 个 字 节 ) 存 和 人 寄存 器 X10 中 ， 然 后 将 X11 改 
为 100 016m。 前 索引 和 后 索引 中 的 “前 ”和 “后 ”代表 地 址 改变 发 生 在 访问 操作 数 之 前 还 
是 之 后 。 

机 器 数据 传输 指令 ( 125 条 ) 比 汇编 数据 传输 指令 ( 49 条 ) 数量 多 的 主要 原因 是 ， 机 器 
语言 中 的 寻 址 模式 需要 独立 的 操作 码 ， 而 如 我 们 之 前 所 见 ， 这 些 在 汇编 语言 中 只 是 相同 助 记 
符 的 不 同 寻 址 符号 。 

图 2-42 列 出 了 ARMv8 中 完整 的 整数 数据 传输 指令 。 为 了 将 LEGv8 中 的 10 条 整 型 数据 
传输 指令 增加 至 ARMv8 中 的 49 条， 首先 加 入 LDA 伪 指 令 ， 获 得 11 条 。 接 下 来 ， 注 意 取 字 
节 (LDURSB) 和 取 半 字 (IDURSH) 指令 都 有 有 符号 数据 传输 版 本 ， 因 此 指令 数 增 至 13 条 。 
除了 双 字 互 斥 取 和 互 斥 存 指令 ，ARMYv8 还 包括 字 节 、 半 字 和 双 字 对 的 互 斥 数据 传输 操作 ， 





篆 仿 : 坟 看 胡 的 语言 117 





这 又 增加 了 6 条 指令 ， 总 数 增 至 19。 
KR Wi | | Al al He  、| 
















































































LDUR Load register (unscaled offset) LDXR Load Exclusive register 
LDURB Load byte (unscaled offset) LDXRB | Load Exclusive byte _ 
LDURSB 。 | Load signed byte (unscaled offset) LDXRH | Load Exclusive halfword 
不 可 | LDURH Load halfword (unscaled offset) 互 斥 |_LDXP Load Exclusive Pair 
扩展 的 | LDURSH | Load signed halfword (unscaled offset) STXR Store Exclusive register 
LDURSW | Load signed word (unscaled offset) STXR8 | Store Exclusive byte 
LSTUR Store register (unscaled offset) | STXRH | Store Exclusive halfword 
LSTURB Store byte (unscaled offset) STXP Store Exclusive Pair 
LSTURH Store halfword (unscaled offset) LDAXR “| Loadaquire Exclusive register 
LSTURWM | Store word (unscaled offset) LDAXRB | Loadaquire Exclusive byte 
LDA Load address LDAXRH | Loadaquire Exclusive halfword 
LDR Load regjster |」 互 斥 | LDAXP _| Loadaquire Exclusive Pair 
LDRB Load byte 获取 / | STLXR | Storerelease Exclusive register 
LDRSB Load signed byte 释放 | STLXRB | Storerelease Exclusive byte 
可 扩展 | LDRH Load halfword STLXRH _| Storerelease Exclusive halfword 
的 ， 前 /| LDRSH Load signed halfword STUXP | Storerelease Exclusive Pair 
后 索引 | LDRSW Load signed word 可 LDP LoadPair _ 
STR Store register 成 对 | LDPSN | Load Pair Signed words 
| STRB Store byte = STP Store Pair 
STRH _ Storehalword ADRP Compute address of 4KB page at a 
Ly _PCrelative offset 
| ADR | compute address oflabel at a PCrelative 
| offset 








图 2-42 完整 ARMv8 指令 集中 整数 数据 传输 操作 的 汇编 指令 列表 。 粗 体 表示 LEGv8 中 也 有 该 指令 ， 
斜体 表示 是 一 条 伪 指 令 ， 粗 斜体 表示 是 一 条 LEGv8 中 也 有 的 伪 指 令 


其 他 寻 址 方式 的 数据 传输 指令 使 用 不 同 的 助 记 符 (LDR、STR 等 )， 这 又 增加 了 9 条 指 
令 来 获取 各 种 大 小 的 有 符号 数 和 无 符号 数 。 为 了 加 速 数据 传输 ，ARMv8 包含 了 三 条 成 对 取 
(load pair) 和 成 对 存 ( store pair) 指令 ， 可 以 同时 传输 两 个 双 字 。 为 了 产生 可 作为 参数 传递 
的 PC 相对 地 址 ，ARMv8 中 有 两 条 指令 ， 将 当前 指令 的 21 位 立即 数 和 当前 的 PC 值 相 加 ， 
结果 (或 左 移 12 位 后 的 结果 ) 存 人 寄存 器 。 这 14 条 指令 将 指令 总 数 增 至 33 条 。 

有 最终， 整数 数据 传输 指令 能 够 在 多 处 理 器 环境 下 互 斥 访问 内 存 。 前 面 提 到 的 指令 LDXR 
和 STXR 就 是 例子 。 除 了 能 提供 对 双 字 的 互 斥 访问 外 ， 还 有 字 节 、 半 字 和 寄存 器 对 的 操作 。 
ARMv8 也 提供 了 按 需 取 和 存 释 放 指 令 ， 实 现 释放 一 致 性 内 存 访 问 模式 ， 以 支持 共享 内 存 语 
义 的 编程 语言 标准 。 这 些 增加 了 16 条 互 斥 数据 传输 指令 (图 2-42 的 第 二 列 )， 数 据 传输 指令 
总 数 最 终 达 到 49 条 。 


2.19.3 ”完整 的 ARMv8 分 支 指令 


2-43 列 出 了 ARMv8 中 所 有 的 分 支 指 令 。 为 了 将 LEGv8 中 的 6 条 分 支 指令 扩充 为 
ARMv8 中 的 23 条 ， 我 们 从 测试 寄存 器 中 某 一 位 是 否 为 0 或 1 的 两 条 新 条 件 分 支 指令 开始 。 同 
样 还 有 两 条 无 条 件 分 支 指令 。 第 一 条 是 分 支 和 链接 指令 的 变 体 ， 该 指令 用 一 个 寄存 器 作为 分 支 
地 址 (branch address，BALR)。 第 二 条 是 从 子 程序 中 返回 的 指令 ( RET)， 该 指令 听 起 来 和 寄存 器 
分 支 指令 (BR) 相似 ， 原 因 是 它们 语义 相同 。 对 这 一 相同 的 操作 ARMv8 有 不 同 的 操作 码 ， 因 此 
硬件 分 支 预测 器 ( 见 第 4 章 ) 能 够 知道 是 否 确实 从 子 程序 返回 ( RET)， 这 样 比较 容易 预测 ; 或 者 
在 分 支 表 (BR) 中 使 用 ， 此 时 较 难 预测 ， 需 要 采用 独特 的 机 制 实现 。 这 些 新 增 了 10 条 分 支 指令 。 
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B.cond lBranch conditionally CSEL Conditional select 



























































CBNZ |compare and branch if nonzero CSINC |Conditional selectincrement 
条 件 | CBZ Compare and branch if zero | CSINV |Conditional select inversion 
分 支 [TBNZ Test bit and branch if nonzero CSNEG _ |Conditional select negation 
TB7 |Testbitand branch ifzero ee CSET Conditional set 
B |Branch unconditionally 过 CSETW Conditional set mask 
BL Branch with link CINC Conditional increment 
无 条 件 | BLR Branch with link to register LOIN Conditional invert 
| 分支 [BR Branchtoregister | cw66 |conditional negate 
RET Retum from subroutine CCMP Conditional compare register 
条 件 CCMPI Conditional compare immediate 
比较 | CCMN Conditional compare negative register 
CCMNI |conditional compare negative immediate 








图 2-43 ARMv8 指令 集中 分 支 的 汇编 语言 指令 列表 。 粗 体 表示 LEGv8 中 也 有 该 指令 ， 斜 体 表示 是 一 
条 伪 指 令 ， 粗 斜体 表示 是 一 条 LEGv8 中 也 有 的 伪 指令 


后 面 9 条 指令 根据 条 件 码 将 一 个 值 存 人 某 个 寄存 器 中 。 如 果 条 件 为 真 ， 目 的 寄存 器 从 第 
一 个 寄存 器 中 取 值 。 如 果 为 假 ， 则 从 第 二 个 寄存 器 中 取 值 。 条 件 选 择 指令 背后 的 设计 目的 是 
取代 条 件 分 支 指令 ， 因 为 如 果 无 法 预测 ， 条 件 分 支 指令 可 能 在 流水 线 执行 时 引发 错误 。 新 增 
9 条 条 件 选择 指令 后 ， 分 支 指令 数 增 至 19。 

最 后 4 条 指令 和 条 件 选 择 指令 类 似 ， 但 是 这 些 指令 的 目的 是 条 件 码 。 也 就 是 说 ， 这 些 指 
令 根据 当前 的 条 件 码 有 条 件 地 设置 条 件 码 ， 这 可 能 有 点 让 人 困惑 。 如 果 选 择 的 条 件 为 真 ， 条 
件 码 将 被 设 为 两 个 操作 数 算术 比较 的 结果 ， 为 假 则 被 设 为 一 个 立即 数 。 条 件 比 较 指令 的 一 个 
版 本 是 检查 两 个 寄存 器 ， 另 一 个 版 本 是 将 一 个 寄存 器 数 和 较 小 的 5 位 无 符号 数 比 较 。 最 后 这 
4 条 指令 使 得 ARMv8 的 分 支 指令 总 数 增加 至 23 条 。 


2.20” 廖 误 与 陷阱 


廖 误 ， 更 强大 的 指令 意味 着 更 高 的 性 能 。 

Intel x86 的 一 个 强大 之 处 在 于 其 前 级 能 够 改变 后 续 指令 的 执行 。 某 个 前 缀 可 以 重复 执行 
后 面 的 指令 直到 计数 器 减少 至 0。 因 此 ， 为 了 在 存储 器 中 移动 数据 ， 看 起 来 自然 的 指令 序列 
是 使 用 带 重 复 前 缀 的 move 指令 来 实现 32 位 的 存储 器 到 存储 器 的 传输 。 

另外 一 种 方法 是 使 用 所 有 计算 机 上 都 有 的 标准 指令 ， 将 数据 取 到 寄存 器 后 再 存 回 存储 
器 。 第 二 种 形式 的 程序 通过 代码 复制 来 减少 循环 开销 ， 复 制 操作 大 约 快 1.5 倍 。 第 三 种 方式 
是 使 用 x86 中 更 大 的 浮 点 寄存 器 代替 整数 寄存 器 ， 复 制 操作 比 使 用 复杂 的 move 指令 快 2 倍 。 

廖 误 : 使 用 汇编 语言 来 获得 最 高 的 性 能 。 

过 去 ， 编 程 语言 的 编译 器 曾 产生 很 幼稚 的 指令 序列 。 但 编译 器 的 不 断 改进 和 成 熟 ， 意 味 
着 编译 器 产生 的 代码 与 手工 生成 代码 的 差距 正在 快速 消失 。 事 实 上 ， 要 与 当今 的 编译 器 竞争 ， 
汇编 语言 程序 员 需 要 深刻 理解 第 4 章 和 第 5 章 (处 理 器 流水 线 和 存储 器 层次 结构 ) 中 的 概念 。 

编译 器 和 汇编 语言 程序 员 之 间 的 战争 正在 逐渐 消失 。 例 如 ，C 为 程序 员 提供 了 一 个 机 会 ， 
可 以 指示 编译 器 把 哪些 变量 保存 在 寄存 器 中 而 不 是 换 出 到 存储 器 中 。 当 编译 器 在 寄存 器 分 配 
上 能 力 较 差 时 ， 这 种 指示 对 性 能 至 关 重 要 。 事 实 上 ,一 些 老 的 C 语言 教科 书 花费 大 量 的 时 间 
列举 有 效 使 用 寄存 器 指示 的 例子 。 今 天 的 C 语言 编译 器 通常 忽略 这 些 指示 ， 因 为 在 分 配 上 
编译 器 比 程序 员工 作 得 更 为 出 色 。 

















和 指令 : 计 草 机 的 请 言 119 





即使 手工 编写 会 产生 更 快 的 代码 ， 编 写 汇编 语言 仍 存在 很 多 危险 : 延长 了 编码 和 调试 的 时 
间 ， 损 失 了 可 移植 性 ， 并 且 这 些 代 码 难以 维护 。 软 件 工程 中 几 个 被 广泛 接受 的 公理 之 一 是 ， 编 
写 的 程序 行 数 越 多 所 花 时 间 也 越 多。 显然 ， 用 汇编 语言 编写 一 个 程序 要 比 用 C 或 Java 需要 更 长 
的 代码 。 此 外 ,一 旦 代码 编写 完成 ， 下 一 个 危险 是 这 些 代码 将 变 成 流行 的 程序 。 这 种 程序 存在 
的 时 间 总 是 比 预 期 要 长 ， 意 味 着 程序 员 需要 每 隔 几 年 就 更 新 一 下 代码 ， 使 其 可 以 运行 在 新 发 布 
的 操作 系统 和 新 的 机 器 上 。 然 而 ， 使 用 高 级 语言 而 不 是 汇编 语言 编写 程序 ， 不 仅 允许 未 来 的 纺 
译 器 为 未 来 的 机 器 定制 代码 ， 还 可 以 使 软件 易于 维护 并 允许 程序 运行 在 更 多 品牌 的 计算 机 上 。 

廖 误 : 商用 计算 机 二 进 制 兼容 的 重要 性 意味 着 成 功 的 指令 集 不 需 改 变 。 

在 向 后 二 进 制 兼容 是 神圣 不 可 侵犯 的 同时 ， 图 2-44 显示 了 x86 体系 结构 的 快速 发 展 。 
在 35 年 中 , 平均 每 个 月 至 少 增加 了 一 条 新 指令 。 
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图 2-44 x86 指令 集 随时 间 的 增长 。 这 些 扩展 中 有 些 是 有 明确 技术 价值 的 ， 但 这 种 迅速 
的 变化 也 给 其 他 试图 生产 兼容 处 理 器 的 公司 增加 了 难度 


陷阱 : 忘记 在 字 节 编 址 的 机 器 中 ， 连 续 的 字 或 双 字 的 地 址 相差 不 是 1。 

很 多 汇编 语言 程序 员 因为 假设 下 一 个 字 或 双 字 的 地 址 可 以 通过 将 某 个 寄存 器 的 值 加 1 而 
不 是 加 一 个 字 或 双 字 的 字 节 数 来 获得 ， 因 此 长 期 以 来 产生 了 很 多 错误 。 凡 事 预 则 立 ! 

陷阱 : 使 用 指针 指向 一 个 超过 其 所 定义 过 程 的 自动 变量 。 

处 理 指针 的 一 个 常见 错误 是 从 一 个 过 程 中 传 出 结果 ， 而 该 过 程 包含 了 一 个 指向 该 过 程 局 
部 数组 的 指针 。 遵 从 图 2-13 中 的 栈 规则 ， 当 过 程 返回 时 ， 包 含 局 部 数组 的 存储 器 将 立即 被 
重新 使 用 。 指 向 自动 变量 的 指针 会 引发 混乱 。 


2.21 本章 小 结 


存储 程序 计算 机 的 两 个 准则 是 指令 的 使 用 与 数字 没有 区 别 ， 以 | 少 就 是 多 。 
及 程序 可 以 使 用 可 变 存 储 器 。 这 些 准 则 使 得 同一 台 计 算 机 可 为 癌症 as ON 
研究 人 员 、 财 务 顾问 和 小 说 家 等 在 其 各 自 的 专业 里 提供 服务 。 选 择 
一 个 机 器 可 以 理解 的 指令 集 需 要 精妙 地 平衡 程序 需要 执行 的 指令 数目 、 一 条 指令 执行 所 需 的 
时 钟 周 期 数 以 及 时 钟 速度 。 就 像 本 章 所 描述 的 ， 有 三 条 准则 可 以 指导 指令 集 设 计 者 做 出 权衡 : 
。 简单 源 于 规整 。 规 整 性 使 得 ARMv8 指令 集 具 有 很 多 特点 : 所 有 指令 长 度 统一 、 算 术 
指令 总 是 需要 三 个 寄存 器 操作 数 、 寄 存 器 字段 在 大 多 数 指令 格式 中 位 置 相同 。 


了 720 
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e 越 少 越 快 。 对 速度 的 要 求 导致 ARMv8 只 有 32 个 寄存 器 而 不 是 更 多 。 


。 优秀 的 设计 需要 好 的 权衡 和 折 中 。ARMv8 在 指令 中 提供 更 大 的 地 址 和 常数 ， 与 保持 
所 有 指令 长 度 相同 之 间 进 行 了 折 中 。 
第 1 章 中 我 们 已 经 了 解 了 计算 机 中 的 伟大 思想 ， 其 中 同 遗 演 久 潜 于 科 的 思想 不 仅 适用 
于 计算 机 体系 结构 ， 对 指令 集 也 同样 适用 。 加 速 ARMv8 中 大 概率 事件 的 例子 包括 条 件 分 支 
的 PC 相对 寻 址 和 大 常数 操作 数 的 立即 数 寻 址 。 
这 些 机 器 语言 之 上 是 人 类 可 以 阅读 的 汇编 语言 。 汇 编 器 将 汇编 语言 翻译 为 机 器 可 以 理解 








的 二 进 制 数 ， 编 译 器 甚至 通过 创造 硬件 中 没有 的 符号 指令 来 “扩展 ”指令 集 。 例 如 ， 太 大 的 
常量 和 地 址 被 切割 成 大 小 合适 的 片段 ， 常 用 的 指令 变 体 有 自己 的 名 字 ， 等 等 。 图 2-45 列举 
了 到 目前 为 止 我 们 介绍 过 的 LEGv8 指令 ， 包 括 实际 指令 和 伪 指令 。 从 更 高 的 级 别 隐藏 细节 
是 伟大 思想 验 裳 的 另外 一 个 例子 。 



































































































































add R move NOV R 
subtract SUB R compare CMP R 
add immediate ADDI 1 compare immediate | CMPI 1 
subtract immediate SUBI 1 load address | LoA | ™ 
addandsetfags | mg | R | | 
Subtract and set fiags SUBS R 

|addimmediate and setflags | ADDIS | 1 
subtract immediate and set flags | SUBIS je 本 
load reglster LDUR D 

| store register STR | Db | 
load signed word DuRSW | D | 
Store word STURW D 
load half LDURH D 
Store half STURH D 
load byte LDURB D 
Storebye STURB | D 
load exclusive register LDXR D 
store exclusive register STXR D 

| move wide with zero MOVZ IM 

| move wide with keep MOVK IM 

Land AND R 
inclusive or ORR | 
exclusive or EOR 本 
and immediate ANDI 1 
inclusive or immediate DRRI 1 
exclusive orimmediate EORI 1 
logical shift left LSL R 
logical shift right LSR R 
compare and branch on equalO | CBZ ce | 
compare and branch on not CBNZ | cB 
equal 0 | 
branch conditionally B.cond | CB 

Loranch We 
branch to register Wl 国 
branch with link BL | B 

图 2-45 目前 为 止 介绍 过 的 LEGv8 指令 集 ， 左 侧 是 真实 的 LEGv8 指令 ， 右 侧 是 伪 指 令 。2.19 节 描 述 


了 完整 的 ARMv8 体系 结构 。 图 2-1 展示 了 与 本 章 相关 的 LEGv8 结构 的 更 多 细节 。 这 里 给 出 
的 信息 可 在 LEGv8 参考 数据 卡 的 第 1 和 第 2 列 查 到 





蔡 依 : 计算 机 把 语言 121 





每 一 类 ARMv8 指令 都 与 编程 语言 中 出 现 的 结构 相关 : 

e 算术 指令 对 应 于 赋值 语句 中 的 操作 。 

e 传输 指令 很 可 能 发 生 在 处 理 如 数组 和 结构 体 这 样 的 数据 结构 时 。 

e 条 件 分 支 用 于 这 语句 和 循环 中 。 

e 无 条 件 分 支 用 于 过 程 调 用 和 返回 以 及 case/switch 语句 。 

这 些 指 令 产生 的 频率 不 等 ， 少 数 指令 占据 了 指令 出 现 频率 的 大 部 分 。 例 如 ， 图 2-46 展 
示 了 SPEC CPU 2006 中 每 类 指令 出 现 的 频率 。 指 令 出 现 的 不 同 频率 在 数据 通路 、 控 制 器 和 
流水 线 的 章节 中 扮演 着 重要 的 角色 。 









































算术 运算 ADD，SuB，ADDI，SUBI | 峰值 语句 的 操作 
LDUR, STUR, LDURSW, | 
STURW, LDURH, STURH, : 
数据 传输 ee 对 数据 结构 的 引用 ， 例 如 数组 | 
MOVK | | | 
ee AND, ORR, EOR, ANDI, 12% | 4% 
逮 辑 运算 ORRI, EORI, LSL, LSR 时 值 语句 的 操作 | 
| 条 件 分 支 C8Z，CBNZ，B.cond，CMP ，CMPI | ”i 语句 和 循环 语句 34% | 8% 
| 。 卡 转 = B, BR, BL | 。 过 程 调用 、 返 回 和 case/switch 语 句 2% 0% 
图 2-46 ”LEGv8 指令 类 型 、 示 例 、 对 应 的 高 级 编程 语言 结构 ， 以 及 SPEC CPU 2006 整数 (定点) 和 浮 点 测试 


程序 中 各 类 LEGv8 指令 执行 的 比例 。 第 3 章 中 的 图 3-27 展示 了 每 条 LEGv8 指令 执行 的 平均 比例 
在 第 3 章 阐述 计算 机 的 算术 运算 之 后 ， 我 们 将 揭示 ARMv8 指令 集体 系 结构 中 更 多 的 内 容 。 


2.22 ”历史 观点 与 拓展 阅读 

本 节 概 述 了 指令 集体 系 结构 ( ISA) 的 历史 ， 并 且 介 绍 了 编程 语言 和 编译 器 的 简短 历史 。 
ISA 包括 累加 器 结构 、 通 用 寄存 器 结构 、 栈 结构 ， 以 及 ARMv7 及 x86 的 简短 历史 。 我 们 还 
回顾 了 高 级 语言 计算 机 结构 中 有 争议 的 问题 以 及 精简 指令 集体 系 结构 。 编 程 语言 的 历史 包括 
Fortran、Lisp、Algol、C、Cobol、Pascal 、Simula、Smalltalk 、C++ 和 Java。 编 译 器 的 历史 
包括 关键 的 里 程 碑 和 实现 它们 的 先驱 。 本 节 剩 余部 分 的 内 容 可 以 阅读 在 线 资料 。 


2.23 ”练习 题 

(读者 在 做 练习 之 前 可 能 想 下 载 并 安装 ARM DS-5 专业 版 软件 套件 的 免费 社区 版 ， 该 软件 包括 了 
ARMv8-A ( 64 位 ) 体系 结构 模拟 器 。 更 多 细节 可 登录 本 书 相应 的 网 页 查询 。) 

LEGv8 和 ARMv8 的 主要 区 别 在 于 ，LEGv8 是 ARMv8 的 一 个 子 集 。 因 此 ， 编 译 器 可 能 会 生成 
LEGv8 中 没有 的 ARMv8 指令 。 这 也 是 我 们 在 2.19 节 、3.8 节 和 5.14 节 中 列 出 其 他 ARMv8 指令 的 一 
个 原因 。 查 看 编译 器 的 输出 你 会 发 现 ， 最 主要 的 一 个 区 别 就 是 编译 器 可 能 使 用 可 扩展 读 取 和 存 人 指令 
(LDR 和 STR)， 而 不 是 LEGv8 指令 集中 的 不 可 扩展 存 取 指令 (LDUR 和 STUR)。 

为 了 方便 教学 ， 我 们 在 LEGv8 中 对 ARMv8 做 了 一 些 修改 ， 这 在 本 书 的 “ 精 解 ”中 已 经 说 明 。 这 
些 修改 不 能 在 ARMv8 的 汇编 器 和 模拟 器 中 工作 。 以 下 列 出 了 四 点 不 同 : 

。 ARMv8 中 没有 独立 的 立即 数 汇编 指令 。 而 LEGv8 中 有 ADDI、SUBI、ADDIS、SUBIS、ANDI、 
ORRI 和 EORI， 这 些 在 ARMv8 中 都 没有 。 你 可 以 简单 使 用 非 立即 数 的 指令 版 本 并 使 用 一 个 立 
即 数 操作 数 。 例 如 ，ARMv8 汇编 器 接受 下 面 的 指令 形式 : 


ADD XO，X]1 ，#4 
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并 且 为 加 法 ADD 生成 立即 数 版 本 的 操作 码 ， 而 在 LEGv8 中 则 直接 使 用 ADDI。 
。 类 似 的 ， 单 精度 和 双 精度 浮 点 指令 没有 独立 的 汇编 语言 指令 。 因 此 ，ARMv8 没有 FADDS、FADDD 、 











174| FSUBS、FSUBD、FMULS 、FMULD、PFDIVS 、FDIVD、FCMPS 、FCMPD、LDURS 、STURS 和 





STURD， 而 LEGv8 中 有 这 些 指令 。 相 反 ， 你 只 用 写 出 浮 点 操作 ， 然 后 由 汇编 器 根据 使 用 的 寄存 器 
名 生成 正确 的 操作 码 : S 代表 单 精度 ，D 代表 双 精 度 。 例 如 ，ARMv8 汇编 器 接受 下 面 的 指令 : 
FADD D0，D1，0D2 

然后 为 FADD 生成 双 精 度 版 本 的 操作 码 ， 而 在 LEGv8 中 直接 使 用 指令 FADDD 完成 该 操作 。 

。 在 完整 的 ARMv8 指令 集中 ， 大 多 数 指令 中 31 号 寄存 器 是 XzR， 但 在 其 他 一 些 指令 中 是 栈 指针 
(SP)。 我 们 认为 这 一 点 非常 让 人 困惑 ， 因 此 在 LEGv8 中 31 号 寄存 器 始终 为 XZR 而 SP 总 是 为 28 
号 寄存 器 。 在 使 用 汇编 器 或 模拟 器 时 ， 用 XzR 和 Se 作为 寄存 器 的 名 字 不 会 引起 问题 。 但 是 在 可 
视 化 处 理 器 状态 时 ， 这 种 微妙 的 差别 可 能 会 显现 出 来 。 

。 在 完整 的 ARMv8 指令 集中 ，ANDI、ORRI 以 及 EORI 指令 的 立即 数字 段 并 不 是 我 们 在 LEGv8 
中 假设 的 简单 的 12 位 立即 数 。ARMv8 提供 了 一 种 算法 将 立即 数值 以 重复 模式 编码 。 这 意味 着 
一 些小 常数 (如 1、2、3、4、6 ) 是 有 效 的 ， 而 其 他 (如 0.5 ) 则 不 是 。 因 此 ， 汇 编 器 可 能 会 插 
人 上 比 你 期 望 的 更 多 的 指令 以 实现 简单 的 常数 ， 或 者 更 少 的 指令 (如 果 你 幸运 地 选择 了 一 个 大 常 
数 )。 官 方 的 定义 是 位 模式 (bit pattern)， 这 可 以 被 视 为 “作为 大 小 为 e= 2, 4, 8, 16, 32，64 位 的 
相同 元 素 的 向 量 。 每 个 元 素 包含 相同 的 子 模式 ， 即 从 第 0 位 开始 有 1 到 (e - 1 ) 个 非 零 位 ， 然 
后 是 零 位 ， 再 然后 旋转 0 到 (e - 1 ) 位 。” 不 要 试图 自己 计算 ， 留 给 汇编 器 来 做 。 

2.1 [5] <2.2 > 对 于 下 面 的 C 语句 ， 写 出 相应 的 LEGv8 汇编 代码 。 假 设 C 变量 5.g 和 h 已 经 分 

别 放 到 寄存 器 X0、X1 和 X2 中 。 请 用 最 少 的 LEGv8 汇编 语句 实现 。 

ts i 

2.2 [5] <2.2 > 编写 一 个 对 应 于 下 面 两 个 LEGv8 汇编 指令 的 C 语句 。 


ADD f, g, h 
ADD fy 1, 平 


2.3 [5] <2.2,2.3 > 对 于 下 面 的 C 语句 ， 写 出 对 应 的 LEGv8 汇编 代码 。 假 设 变量 fg h\i 和 j 分 
别 存放 在 寄存 器 X0、X1、X2、X3 和 X4 中 。 假 设 数组 A 和 B 的 基 址 存放 在 寄存 器 X6 和 X7 中 。 
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2.4 [10] <22, 23> 对 于 下 面 的 LEGv8 汇编 指令 ， 相 应 的 C 语 句 是 什么 ? 假设 变量 f、g、h、i 和 j 分 
别 存放 在 寄存 器 X0、X1、x2、Xx3 和 x4 中 。 假 设 数组 A 和 B 的 基 址 分 别 存放 在 寄存 器 X6 和 X7 中 。 
LSL x9, x0, #3 // X9 = f*8 
ADD X9, x6, x9 /1/ X9 = &A[f] 
LSL X10, X1, #3 // X10 = g*8 


ADD X10, xX7. X10  // X10 = &B[9] 
LDUR x0, [Xx9, #0] // f = A[f] 


ADDI X11, Xx9, #8 
LDUR XxX9, [X11, #0] 
ADD xX9, x9. x0 
STUR X9, [X10, #0] 
2.5 [5] <2.2, 2.3, 2.6 > 在 不 改变 功能 的 前 提 下 ， 重 写 练习 题 2.4 中 的 LEGv8 汇编 代码 ， 使 其 指 
令 数 目 尽 可 能 少 。 
2.6 [5] <2.3> 分 别 给 出 数据 0xabcdef12 在 大 端 模式 和 小 端 模式 机 器 上 是 如 何 分 布 在 存储 器 中 
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2.7 
2.8 


2.9 


2.10 


2.11 
2.11.1 


2.11.2 
2.11.3 


2.11.4 
2.11.5 


2.11.6 
2.12 
2.12.1 
2.12.2 
2.12.3 
2.13 


2.14 


的 。 


假定 数据 从 地 址 0 开始 存储 ， 字 大 小 是 4 个 字 节 。 


[5] <2.4> 将 0xabcdef12 转化 为 十 进 制 。 

[5] <2.2,2.3> 把 下 面 的 C 代码 翻译 为 LEGv8 代码 。 假 定 变量 f、g、h ,i 和 j 分 别 赋值 给 寄 
存 器 X0、x1、X2 、X3 和 X4。 假 定数 组 A 和 数组 B 的 基 址 分 别 存放 在 X6 和 X7 中 。 假 定数 
组 A 和 数组 B 中 的 元 素 均 为 8 字 节 的 双 字 : 


B[8 


1 = hE + Ms 


[10] <2.2,2.3 > 把 下 面 的 LEGv8 代码 翻译 为 C 代码 。 假 定 变 量 £、g、h、i 和 j 分别 赋值 给 
寄存 器 X0 、X1 、X2、Xx3 和 X4。 假 定数 组 A 和 数组 B 的 基 址 分 别 存放 在 X6 和 XxX7 中 。 


ADDI X9， X6， #8 
ADD X10, x6, XZR 
STUR X10, [Xx9, #0] 
LDUR x9, [XxX9, #0] 
ADD xX0, Xx9, X10 


20 


值 。 


5 


5 


SUB 
5 
5 


5 


5 
5 
5 
5 


100 


5 


STU 
5 





op= 
[5 





0p= 


] <2.2, 2.5 > 对 于 练习 题 2.9 中 的 每 条 LEGv8 指令 ， 写 出 操作 码 ( Op)、 源 操作 数 寄存 器 


(Rn) 和 目的 操作 数 寄存 器 ( Rd 或 Rt) 字段 的 值 (value)。 对 于 工 型 指令 ， 写 出 立即 数字 段 的 


对 于 R 型 指令 ， 写 出 第 二 源 操作 数 寄存 器 (Rm) 字段 的 值 。 


假定 寄存 器 X0 和 Xi 分 别 存放 数值 0x8000000000000000 和 0xD000000000000000。 


<2.4> 下 面 汇编 代码 中 x9 的 值 是 多 少 ? 


ADD xX9, Xx0, Xl 
5] 


] < 2.4 > x9 中 的 结果 是 期 望 的 结果 ， 还 是 发 生 溢出 后 的 结果 ? 

<2.4> 对 于 上 面 定义 的 寄存 器 X0 和 X1 的 内 容 ， 下 面 汇 编 代 码 中 X9 的 值 是 多 少 ? 
X9, X0, Xl 

<2.4 > x9 中 的 结果 是 期 望 的 结果 ,还 是 发 生 溢出 后 的 结果 ? 

<2.4 > 对 于 上 面 定义 的 寄存 器 X0 和 X1 的 内 容 ， 下 面 汇编 代码 中 X9 的 值 是 多 少 ? 


ADD X9, Xx0, Xl 
ADD xX9, X9, x0 


<2.4 > Xx9 中 的 结果 是 期 望 的 结果 ， 还 是 发 生 溢出 后 的 结果 ? 


假定 x0 中 的 值 为 128icn。 


<2.4> 对 于 指令 ADD X9，X0，X1， 求 使 结果 产生 溢出 的 xl 的 值 的 范围 。 
< 2.4 > 对 于 指令 SUB Xx9，X0，X1， 求 使 结果 产生 溢出 的 xl 的 值 的 
<2.4> 对 于 指令 SUB X9，X1，X0， 求 使 结果 产生 溢出 的 X1 的 值 的 
<2.2，2.5 > 写 出 下 面 的 二 进 制 数值 对 应 的 指令 类 型 和 汇编 语言 指令 : 

0 1011 0000 0000 0000 0000 0000 0000,., 





提示 : 图 2-20 可 能 有 帮助 。 


<2.2,2.5> 给 出 下 面 指令 的 类 型 和 十 六 进 制 表示 : 

R x9, [X10,#32] 

<2.5> 写 出 下 面 LEGv8 字段 描述 的 指令 的 类 型 、 汇 编 语言 指令 和 二 进 制 表示 : 
0Qx658, Rm=13, Rn=15, Rd=17. shamt=0 

<2.5 > 写 出 下 面 LEGv8 字段 描述 的 指令 的 类 型 、 汇 编 语言 指令 和 二 进 制 表示 : 
0x75c2，Rn=12，Rt=3， const=0x4 
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2.17 ”假设 将 LEGv8 寄存 器 文件 扩展 到 128 个 寄存 器 ， 并 将 指令 集中 的 指令 数 扩展 为 原来 的 4 倍 。 
2.17.1 [5] <2.5> 这 对 R 型 指令 每 个 位 字段 的 大 小 有 何 影响 ? 
2.17.2 [5] <2.5> 这 对 I 型 指令 每 个 位 字段 的 大 小 有 何 影 响 ? 
2.17.3 [5] < 2.5,2.8,2.10> 在 提出 的 这 两 种 变化 中 ， 每 种 变化 如 何 减少 LEGv8 汇编 程序 的 大 小 ? 另 
一 方面 ， 又 如 何 增 大 LEGv8 汇编 程序 的 大 小 ? 
2.18 ”假设 如 下 寄存 器 内 容 : 


2.18,1 


2.18.2 


2.18.3 


2.19 


2.20 


2.22 


2.23 
2.23.1 


2.23.2 


2.24 


2.24.1 


X10 = 0x00000000AAAAAAAA, X11 = 0x1234567812345678 
5] <2.6 > 对 于 以 上 的 寄存 器 内 容 ， 下 面 的 指令 序列 执行 后 X12 的 值 是 多 少 ? 


LSL X12, X10, #4 
ORR X12, X12, X11 


5] <2.6 > 对 于 以 上 的 寄存 器 内 容 ， 下 面 的 指令 序列 执行 后 X12 的 值 是 多 少 ? 
LSL X12, X11, 凑 


5] <2.6 > 对 于 以 上 的 寄存 器 内 容 ， 下 面 的 指令 序列 执行 后 X12 的 值 是 多 少 ? 


LSR X12, x10, #3 
ANDI X12, X12, OxFEF 


10 ] <2.6 > 找 出 完成 如 下 功能 的 最 短 的 LEGv8 指令 序列 : 从 寄存 器 X10 中 提取 第 16 位 到 第 
11 位 ， 然 后 使 用 这 些 位 替换 寄存 器 X11 的 第 31 位 到 第 26 位 ， 保 持 其 他 位 不 变 。( 使 用 X10 
=0 和 X11=0xffffffffffffffff 测试 你 的 代码 。 从 中 可 以 发 现 一 个 常见 的 玻 忽 。) 

5 ] <2.6> 写 出 可 用 来 实现 下 面 伪 指令 的 LEGv8 指令 的 最 小 子 集 : 

NOT X10, x11 // bit-wise invert 

5 ] <2.6 > 对 于 下 面 的 C 语 句 ， 写 一 个 能 够 完成 同样 操作 的 最 短 LEGv8 汇编 指令 序列 。 假 设 
X11=A 且 X13 是 C 的 基 址 。 








A = CI0] < 4; 
5] <2.7> 假 设 X0 中 存放 数值 0x00500000000101000， 下 列 指令 执行 后 xl 的 值 是 多 少 ? 
CMP Xx0, #0 
B.GE ELSE 
B DONE 
ELSE; ORRI X1, XZR, #2 
DONE: 


假设 程序 计数 器 (PC) 被 设置 为 0x2000 0000。 

[5] <2.10> 使 用 LEGv8 分 支 (8) 指令 可 以 达到 的 地 址 范围 是 多 少 ?( 换 句 话 说 ， 分 支 指令 执 
行 后 PC 可 能 的 值 是 多 少 ? ) 

[5] <2.10> 使 用 LEGv8 条 件 分 支 ( CBz) 指令 可 以 达到 的 地 址 范围 是 多 少 ? ( 换 句 话说 ， 分 
支 指令 执行 后 PC 可 能 的 值 是 多 少 ? ) 

考虑 一 个 名 为 RPT 的 新 指令 。 该 指令 将 循环 的 条 件 检查 和 计数 器 递减 组 合 为 一 个 指令 。 例 如 
RPT X12，1oop 将 执行 以 下 操作 : 


if (X12 20) { 
XI IS =13 
goto loop 


} 
[5] <2.7,2.10 > 如 果 在 ARMv8 指令 集中 加 入 该 指令 ， 哪 种 指令 格式 最 合适 ? 
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2.24.2 
2.25 


2.25.1 


2.25.2 
2.25.3 


2.25.4 


2.25.5 


2.25.6 
2.25.7 


2.26 


2.27 


[5] <2.7> 能 够 实现 相同 操作 的 最 短 LEGv8 指令 序列 是 什么 ? 
考虑 如 下 的 LEGv8 循环 : 


LO00P: SUBIS Xx1, x1, #0 

B.LE DONE 

SUBI Xl, X1, 担 

ADDI xX0, x0, #2 

B LO0P 
DONE: 
5 ] <2.7> 假设 寄存 器 Xl 的 初始 值 为 10,X0 初始 值 为 0， 则 循环 执行 完毕 时 寄存 器 xX0 的 值 
是 多 少 ? 
5] <2.7> 对 于 上 面 的 循环 ， 写 出 等 价 的 C 代码 。 假 定 寄存 器 X0 、X1 分 别 为 整数 acc 和 i。 
5] <2.7> 对 于 上 面 循环 的 LEGv8 汇编 代码 ， 假 定 寄存 器 x1 的 初始 值 为 N， 执 行 了 多 少 条 
LEGv8 指令 ? 

5] <2.7> 对 于 上 面 循环 的 LEGv8 汇编 代码 ,将 指令 B.LE DONE 替换 成 B.MI DONE。 假 
设 寄存 器 x0 的 初始 值 位 0， 循 环 执行 完毕 后 寄存 器 x0 的 值 是 多 少 ? 

5] <2.7> 对 于 上 面 循环 的 LEGv8 汇编 代码 ,将 指令 B.LE DONE 替换 成 B.MI DONE 并 写 
出 等 价 的 C 代码 。 

5] < 2.7> 上 述 代码 中 指令 SUBIS 的 目的 是 什么 ? 

5 ] < 2.7 > 如 果 将 指令 SUBIS 和 SUBI 组 合 起 来 ， 如 何 减少 上 述 代码 中 指令 的 数量 。( 提 示 : 
在 循环 外 增加 一 条 指令 。) 

10] <2.7> 将 下 面 的 C 代码 翻译 为 LEGv8 汇编 代码 。 要 求 使 用 的 指令 数目 最 少 。 假 设 值 
a.b.i 和 j 分 别 存放 在 寄存 器 X0、Xl 、X10 和 X11 中 。 另 外 寄存 器 X2 中 存放 数组 D 的 基 址 。 
for(i=0; i¢a; i++) 

for(j=0; j<b; j++) 
DUA*#J] = 1 + 3 
5] <2.7> 实现 练习 题 2.26 中 的 C 代码 需要 多 少 条 LEGv8 汇编 指令 ? 如 果 变 量 a 和 b 分 别 
初始 化 为 10 和 1， 并且 D 中 所 有 元 素 初始 化 为 0， 整 个 循环 执行 完成 时 ， 一 共 执行 了 多 少 条 
LEGv8 指令 ? 
5] <2.7> 将 下 面 的 循环 翻译 成 C 代码 。 假 定 寄存 器 X10 中 存放 C 语言 级 的 整数 i,x0 中 存 
放 C 语言 级 的 整数 result ，X1 存放 整数 数组 MemArray 的 基 址 。 


ORR X10。XZR，XZR 

LOOP: LDUR X11, EX1, #0] 
ADD x0, XO, X11 
ADDI x1, x1, #8 
ADDI X10, X10, 相 
CMPI X10, 100 
B.LT LOOP 


[10] <2.7> 将 练习 题 2.28 中 的 循环 重 写 以 减少 执行 的 LEGv8 指令 数 。 提 示 : 注意 变量 i 只 
能 用 于 循环 控制 。 
[30] <2.8> 使 用 LEGv8 汇编 实现 下 面 的 C 代码 。 提 示 : 栈 指针 必须 保持 16 的 倍数 对 齐 。 


int fib(int n){ 
if (n==0) 
return 0; 
Bae F(R em 了 
return 1; 
else 
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return fib(n-L) + fib(n-2); 
1 
2.31 [20 ] < 2.8 > 对 于 每 一 次 函数 调用 ， 画 出 调用 后 栈 的 内 容 。 假 定 栈 指针 初始 为 0x7ffffffc， 


2.32 


2.33 


2.34 


2.35 


2.36 


2.36.1 
2.36.2 
2.37 
2.38 


2.39 


2.40 


2.41 


2.41.1 


寄存 器 的 使 用 情况 和 图 2-12 相同 。 
20] <2.8> 将 下 面 的 酉 数 三 翻译 成 LEGv8 汇编 语言 。 如 果 需 要 使 用 寄存 器 X10 到 X27， 请 从 编 
号 小 的 寄存 器 开始 使 用 。 假 设 函数 g 的 声明 为 “int g(int a,int b) ;"， 函数 的 代码 如 下 : 


int f(int a, int b, int c, int d)1 
return g(g(a.b),c+d); 
1 


5] < 2.8 > 请问 这 个 函数 可 以 使 用 尾 调用 优化 吗 ? 如 果 不 能 ， 请 说 明 原因 。 如 果 能 ， 请 说 明 
优化 前 后 执行 三 的 指令 数 的 差别 。 

5 ] < 2.8 > 在 练习 题 2.32 中 的 函数 f£ 返回 之 前 ,我 们 知道 寄存 器 X5 ,X29、X30 和 SP 的 内 容 
是 什么 吗 ? 注意 ,我们 知道 函数 f 的 全 部 ,但 是 对 于 函数 9g， 我 们 只 知道 函数 声明 。 

30 ] <2.9> 用 LEGv8 汇编 语言 写 一 段 代 码 ， 将 包含 十 进 制 正 整数 和 负 整数 的 ASCII 码 的 数 
串 转 换 成 整数 。 在 程序 中 使 用 寄存 器 x0 保存 非 空 字符 串 的 地 址 ， 该 字符 串 包 含 “+” 和 
“-” 符 号 并 由 数字 0 ~ 9 组成。 程序 应 该 计算 与 这 个 数字 串 等 值 的 整数 ， 并 将 这 个 整数 存放 
在 寄存 器 x0 中 。 如 果 在 字符 串 的 任意 位 置 出 现 非 数字 字符 ， 程 序 停止 并 将 -1 存 人 x0。 例 
如 ， 如 果 寄 存 器 X0 指向 一 个 3 字 节 的 序列 50es，52ten,'0tn ( 非 终结 的 字符 串 “24”)， 当 程 
序 停止 时 ， 寄 存 器 X0 中 的 值 应 该 是 24ico。ARMv8 的 MUL 指令 需要 两 个 寄存 器 作为 输入 。 
没 MULI 指令 。 因 此 ， 需 要 将 常量 10 存 人 一 个 寄存 器 。 

对 于 如 下 代码 ; 


LDURB X10, [X11, #0] 
STUR X10, [X11, #8] 


假设 寄存 器 x11 中 存放 地 址 0x*10000000， 该 地 址 中 存放 的 数据 是 0x1122334455667788。 
[5 ] < 2.3,2.9> 在 大 端 机 器 中 ,地址 0x10000008 中 存放 的 值 是 多 少 ? 

[5 ] <2.3, 2.9 > 在 小 端 机 器 中 ,地 址 0x10000008 中 存放 的 值 是 多 少 ? 

[5] < 2.10 > 写 一 段 LEGv8 汇编 代码 ， 生 成 64 位 常数 0x1122334455667788 并 存 入 寄存 器 X0 中 。 
[10] < 2.11 > 写 出 实现 下 面 C 代码 的 LEGv8 汇编 代码 : 


1ock(1k): 
Sshvar=max(Sshvar,X); 
unlock(1k); 


假设 变量 1k 的 地 址 在 x0 中 ， 变 量 shvar 的 地 址 在 x1 中 , 变量 x 的 值 在 X2 中 。 你 所 编写 的 这 个 
重要 部 分 的 代码 不 能 包含 任何 函数 调用 。 使 用 LDXR/STXR 指令 实现 lock ( ) 操作 ,而 unlock () 
操作 可 以 简单 地 使 用 存 数 指令 。 

[10] <2.11> 重复 练习 题 2.38， 这 次 使 用 LDXR/ STXR 直接 完成 对 变量 shvar 的 原子 更 新 操 
作 , 不 使 用 lock () 和 unlock() 。 注 意 这 次 练习 中 没有 变量 1k。 

[5] <2.11 > 以 练习 题 2.38 中 的 代码 为 例 ， 解 释 当 两 个 处 理 器 同时 执行 这 段 临界 区 域 时 ， 将 
发 生 什么 情况 ? 假设 每 个 处 理 器 执行 一 条 指令 正好 需要 一 个 周期 。 

假设 给 定 处 理 器 的 算术 指令 的 CPI 是 1， 取 数 / 存 数 指令 的 CPI 是 10， 分 支 指令 的 CPI 是 3。 
假设 一 个 程序 有 5 亿 条 算术 指令 、3 亿 条 取 数 / 存 数 指令 和 1 亿 条 分 支 指令 。 

[5] < 1.6, 2.13 > 假设 向 指令 集中 添加 了 新 的 、 功 能 更 强 的 算术 指令 。 通 过 使 用 这 些 功能 更 强 
大 的 算术 指令 ,平均 可 以 减少 程序 执行 所 需要 的 25% 的 算术 指令 ， 而 时 钟 周期 的 开销 增长 了 
10%。 请 问 这 是 好 的 设计 选择 吗 ? 为什么? 
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2.41.2 


2.42 


2.42.1 


2.42.2 


2.42.3 


2.43 


2.44 


2.45 
2.46 


2.47 


2.48 


2.49 


5 ] < 1.6, 2.13 > 假设 我 们 找到 了 一 种 可 以 使 算术 指令 性 能 达到 原来 两 倍 的 方法 。 请 问 此 时 机 
器 的 整体 加 速 是 多 少 ? 假设 我 们 找到 了 一 种 可 以 使 算术 指令 性 能 达到 原来 10 倍 的 方法 ， 那 
么 机 器 性 能 的 整体 加 速 又 是 多 少 ? 

假设 一 给 定 程序 所 执行 的 指令 中 , 70% 是 算术 指令 、10% 是 取 数 / 存 数 指令 , 20% 是 分 支 指令 。 
5 ] < 1.6,2.13 > 假设 执行 一 条 算术 指令 需要 2 个 周期 ， 执 行 一 条 取 数 / 存 数 指令 需要 6 个 周 
期 ， 而 执行 一 条 分 支 指令 需要 3 个 周期 ， 求 平均 CPI。 

5] <1.6, 2.13 > 在 取 数 / 存 数 指令 和 分 支 指令 执行 时 间 不 变 的 情况 下 ， 如 果 要 使 性 能 提升 
25% ， 则 算术 运算 指令 的 平均 执行 时 间 应 该 为 多 少 ? 

5] <1.6, 2.13 > 在 取 数 / 存 数 指令 和 分 支 指令 执行 时 间 不 变 的 情况 下 ， 如 果 要 使 性 能 提升 
50%， 则 算术 运算 指令 的 平均 执行 时 间 应 该 为 多 少 ? 

10 ] < 2.19 > 使 用 完整 的 ARMv8 指令 集 (特别 是 在 加 载 数据 时 可 扩展 寄存 器 偏 移 量 的 特性 )， 
进一步 减少 执行 练习 题 2.4 中 给 出 的 功能 所 需 的 汇编 指令 的 数量 。 

10 ] <2.19 > 使 用 完整 的 ARMv8 指令 集 (特别 是 在 加 载 数据 时 可 扩展 寄存 器 偏 移 量 的 特性 )， 
进一步 减少 实现 练习 题 2.8 中 给 出 的 C 代码 所 需 的 汇编 指令 的 数量 。 

10] <2.19> 使 用 完整 的 ARMv8 指令 集 ， 进 一 步 减少 完成 练习 题 2.19 所 需 的 汇编 指令 的 数量 。 
10] < 2.19 > 给 出 实现 如 下 伪 代 码 需要 的 最 少 的 ARMv8 指令 : 


NOT X10, X11 V/ bit-wise invert 


(注意 ， 练 习题 2.20 中 的 LEGv8 指令 代码 未 必 是 有 效 的 ARMv8 指令 代码 。) 

[10 ] < 2.19 > 使 用 前 索引 寻 址 模式 来 尽量 减少 实现 练习 题 2.28 中 给 出 的 代码 所 需 的 ARMv8 
汇编 指令 的 数量 。 

[5 ] < 2.19 > 使 用 后 索引 寻 址 模式 来 尽量 减少 实现 练习 题 2.28 中 给 出 的 代码 所 需 的 ARMv8 汇 
编 指令 的 数量 。 

[5 ] <2.19> 实现 在 整数 数组 中 找到 最 大 值 的 ARMv8 汇编 函数 。 以 尽 可 能 少 的 指令 实现 函数 的 
功能 。 提 示 : 使 用 CSEL 指令 ， 可 以 将 循环 体 减少 到 五 条 指令 。 
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计算 机 的 算术 运 





计算 机 的 五 个 经 典 部 件 


3.1 引言 


计算 机 中 的 字 由 位 组 成 。 因 此 ， 字 可 以 表示 为 二 进 制 的 数 。 第 | 喜 值 的 精确 度 是 科学 的 炳 贿 - 
2 章 里 阐述 了 整数 可 以 表示 成 十 进 制 或 者 二 进 制 形式 ， 但 是 其 他 常 | SsDirey Weorwort Thompson, 
用 的 数据 如 何 表示 ?例如 : A 

。 小 数 和 其 他 实数 如 何 表示 ? 

。 当 一 个 操作 生成 了 一 个 无 法 表示 的 大 数 时 会 发 生 什么 ? 

。 这 些 问题 后 面 隐藏 着 的 秘密 : 硬件 如 何 真正 地 做 乘法 和 除法 ? 

本 章 的 目的 就 是 要 揭示 这 些 秘密 ， 包 括 实数 的 表示 、 算 术 运算 的 算法 、 实 现 这 些 算法 的 硬 
件 ， 以 及 所 有 这 些 对 指令 集 的 影响 。 有 了 这 些 知识 后 ， 你 就 能 解释 在 使 用 计算 机 的 过 程 中 遇 到 
的 一 些 怪异 的 现象 。 此 外 ， 本 章 还 将 介绍 如 何 使 用 这 些 知识 加 速算 术 


运算 密集 型 程序 的 运行 。 减法 : 加 法 的 微 示 朋 友 。 
No.10, Top Ten Courses for Ath- 
3.2 ”加 法 和 减法 Jtes at a Football Factory, David 


Letterman etal, Bookof Top Ten 


加 法 是 计算 机 中 必 备 的 操作 。 数 据 从 右 到 左 逐 位 相 加 ， 进 位 向 【5% 9% 
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左 传递 ， 就 像 手动 计算 一 样 。 减 法 也 可 采用 加 法 实现 : 相 加 之 前 ， 减 数 首先 进行 简单 的 取 反 
操作 。 


| 例题 | 二 进 制 加 法 和 减法 
在 二 进 制 形式 下 ， 首 先 计 算 7 加 上 6e。， 然 后 计算 7 减 去 Guo。 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 000001 和 - 区 
+ 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000110,,,。 = 6,。 








= 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00001101,,, = 13,。 


右边 4 位 完成 运算 。 图 3-1 给 出 了 和 与 进位 。 其 中 ， 括 号 里 存放 进位 ， 箭 头 指明 了 进位 如 何 


传递 。 
‘ 个 
他 (0) (从 {( 信 他 {进位 ) 
ss 0 0 0 1 1 
2 0 0 0 1 | 0 


A 
图 3-1 二 进 制 加 法 ， 从 右 到 左 进位 。 最 右边 的 位 将 ! 和 0 相 加 ， 得 到 该 位 的 和 为 1， 该 位 进位 
为 0。 因此 ， 右 边 第 二 位 的 操作 是 0 + 1 + 1。 该 操作 产生 的 和 为 0， 进位 为 1。 第 三 位 
是 1+1+1 的 和 ， 得 到 的 进位 为 1， 和 为 1。 第 四 位 是 1 + 0+ 0， 和 为 1， 无 进位 





| 答案 | 7 减 去 6 可 以 直接 操作 : 


00000000 00000000 00000000 00000000 00000C00 00000000 00000000 00000111,,, = 7 
+ 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000110, = 









= 00000000 00000000 00000000 00000000 00000C00 00000000 00000000 00000001,, = 1 


或 者 通过 加 上 -6 的 二 进 制 补 码 来 实现 : 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000111,,, = 7 
+ 1llllllll llllllll 11111111 11111111 11111111 11111111 11111111 11111010,。-~ -6 





= 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001,.。= 1 








当 运 算 结果 超过 硬件 的 表示 能 力 (本 例 为 一 个 64 位 的 字 ) 时 ， 就 会 产生 溢出 。 加 法 何 
时 会 产生 溢出 ? 符号 不 同 的 两 个 操作 数 相 加 时 不 会 发 生 溢出 ， 原 因 是 “和 ”不 可 能 大 于 其 
中 任何 一 个 操作 数 。 例 如 ，-10 + 4 = -6。 因 为 操作 数 可 以 用 64 位 表示 ， 而 “和 ”不 会 大 于 
其 中 任何 一 个 源 操作 数 ， 因 此 “和 ”也 可 以 用 64 位 表示 。 故 当 正 数 和 负数 相 加 时 不 会 产生 
溢出 。 

在 做 减法 时 也 有 类 似 情 况 ， 但 规则 相反 : 当 操 作 数 的 符号 相同 时 ， 不 会 发 生 溢出 。 我 们 
知道 ,c -a=c + (-a)， 因 为 减法 是 把 第 二 个 操作 数 变相 反 符 号 然后 相 加 。 因 此 ， 当 符号 相同 
的 数 相 减 时 ， 我 们 最 终 是 把 两 个 符号 相 异 的 数 相 加 。 因 此 也 不 会 发 生 溢出 。 

知道 在 加 减法 中 何 时 不 会 发 生 溢出 非常 重要 ， 但 当 溢出 确实 发 生 时 我 们 如 何 检测 到 呢 ? 
很 明显 ， 两 个 64 位 的 数 进行 加 或 碱 ， 可 能 产生 需要 用 65 位 来 表示 的 结果 。 

缺少 第 65 位 ， 意 味 着 溢出 发 生 时 ， 符 号 位 可 能 被 数值 位 占用 ， 而 不 是 用 于 代表 结果 的 
符号 。 但 我 们 需要 的 是 额外 的 一 位 ， 而 不 是 占用 符号 位 从 而 可 能 产生 错误 。 因 此 ， 当 两 个 正 
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数 相 加 但 和 为 负 时 ， 就 说 明 产生 了 溢出 ， 反 之 亦 然 。 这 个 “虚假 ”的 和 意味 着 计算 过 程 中 产 
生 了 向 符号 位 的 进位 。 

在 做 减法 时 ， 如 果 一 个 正 数 减 去 一 个 负数 得 到 一 个 负 的 结果 ， 或 者 一 个 负数 减 去 一 个 正 
数 得 到 一 个 正 的 结果 ， 则 发 生 了 溢出 。 这 个 错误 的 结果 意味 着 从 符号 位 产生 了 借 位 。 图 3-2 
给 出 了 引起 溢出 操作 、 操 作 数 和 结果 的 组 合 。 

















WT 操作 数 B 结集 显示 溢出 
=0 | ww <0 
<0 <0 | =0 
=0 | <0 | <0 
<0 | =0 | >0 








图 3-2 ”加 减法 的 溢出 条 件 


上 面 介绍 了 如 何 检测 计算 机 中 的 二 进 制 补 码 运算 的 溢出 。 那 么 无 符号 整数 的 溢出 情况 又 
是 如 何 呢 ? 由 于 无 符号 数 通 常用 于 表示 内 存 地 址 ， 这 种 情况 下 的 溢出 可 以 忽略 。 
鉴于 游 出 是 四 个 条 件 码 之 一 ， 因 此 编译 器 很 容易 检测 加 法 和 减 
法 指令 的 溢出 。C 语言 忽略 溢出 ， 但 是 Fortran 语言 需要 检测 和 发 现 。 | 其 本本 和 利和 
溢出 。 与 、 逻 辑 或 等 逻辑 操作 的 
附录 A 描述 了 实现 加 减法 的 硬件 ， 即 算术 逻辑 单元 (Arithmetic | 及 人 
Logic Unit，ALU)。 
| 浅 标 区 怠 乔 接 装 计算 机 设计 者 必须 考虑 如 何 处 理 算术 溢出 。 虽 然 一 些 编程 语言 (如 C 
和 Java) 忽略 整数 溢出 ， 而 另 一 些 语言 如 Ada 和 Fortran 则 需要 通知 程序 溢出 。 因 此 ， 程 序 
员 或 编程 环境 必须 决定 在 溢出 发 生 时 如 何 处 理 。 


小 结 


本 节 的 重点 在 于 ， 无 论 采用 哪 种 表示 方法 ， 计 算 机 有 限 的 字 长 意味 着 进行 算术 操作 时 可 
能 产生 太 大 的 超过 字 长 的 结果 。 无 符号 数 的 溢出 容易 检测 ， 但 这 些 溢出 往往 被 忽略 。 因 为 无 
符号 数 通常 用 于 地 址 计算 (自然 数 最 常见 的 用 法 )， 而 程序 通常 不 需要 检测 地 址 计算 的 溢出 。 
二 进 制 补 码 表示 ”给 溢出 检测 带 来 了 挑战 ， 但 是 有 些 软件 系统 需要 识别 溢出 ， 所 以 今天 所 有 
的 计算 机 都 支持 溢出 检测 。 

| 渍 租 他 和 ( saturating) 操作 是 通用 微 处 理 器 中 一 个 不 常见 的 特性 。 饱 和 意味 着 当 计 算 
结果 溢出 时 ， 结 果 被 设置 为 最 大 的 正 数 或 者 最 小 的 负数 ， 而 不 像 二 进 制 补 码 运算 那样 采用 取 
模 操 作 来 获得 结果 。 饱 和 操作 很 可 能 是 用 户 需 要 的 媒体 操作 。 例 如 ， 当 不 断 旋转 收音 机 的 音 
量 旋钮 时 ， 起 初 声音 逐渐 增 大 ， 但 当 大 到 一 定 值 后 声音 会 突然 变 小 。 然 而 ， 支 持 侈 和 功能 的 
旋钮 会 在 最 高 音量 时 停 下 ， 无 论 已 经 旋转 了 多 少 。 标 准 指令 集 上 的 多 媒体 扩展 指令 通常 提供 
饱和 运算 。 

| 山 钥 :尽早 确定 向 高 位 传递 的 进位 可 以 加 快 加 法 执行 的 速度 。 有 许多 方案 可 以 预先 获得 
进位 ， 因 此 最 坏 情况 下 的 进位 时 间 是 加 法 器 位 长 的 log 的 函数 。 这 些 预 期 信号 传输 更 快 ， 因 
为 它们 经 过 的 门 更 少 ， 但 预先 获得 进位 需要 更 多 的 逻辑 门 。 最 流行 的 结构 是 超前 进位 ( carry 
look ahead) 加 法 器 ， 附 录 A 中 的 A.6 节 进 行 了 描述 。 


日 即 有 符号 数 。 一 一 译 者 注 
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3.3 乘法 
前 面 我 们 已 经 完成 了 对 加 法 、 减 法 的 解释 ， 下 面 开 始 分 析 更 让 | 条 法 令 人 和 恼怒， 除法 更 
人 头疼 的 乘法 操作 。 其 ; 三 人 准则 困扰 着 我， 


首先 我 们 看 看 手工 计算 的 十 进 制 数 乘法 ， 以 便 回顾 乘法 的 步骤 “| 全 可 全 让 和 本 


和 操作 数 的 名 称 。 我 们 只 用 0 和 1 组 成 的 十 进 制 数 作为 例子 ， 计 算 “| mamuserpr 1570 
1000w 乘 以 1001wn: 





积 1001000,， 


第 一 个 操作 数 称 为 被 冬 数 ( multiplicand), 第 二 个 称 为 来 数 ( multiplier)， 最 终 的 结果 称 
为 积 (product)。 你 可 能 会 回想 起 小 学 学 过 的 乘法 规则 ， 即 每 次 从 右 到 左 选 取 乘 数 的 一 位 ， 
乘 以 被 乘 数 ， 然 后 相对 上 一 个 中 间 积 ， 将 当前 积 左 移 一 位 。 

首先 可 以 观察 到 ， 积 的 位 数 远 远大 于 被 乘 数 和 乘 数 。 事 实 上 ， 如 果 忽 略 符号 位 ， 若 被 乘 
数 为 n 位 ， 乘 数 为 m 位 ， 则 积 为 n +m 位， 即 需 要 n+ m 位 来 表示 所 有 可 能 的 积 。 因 此 ， 和 
加 法 一 样 ， 乘法 也 需要 处 理 溢出 ， 因 为 经 常 需要 将 两 个 64 位 长 的 数 相 乘 产生 一 个 64 位 长 
的 积 。 

在 这 个 例子 中 ,我 们 只 使 用 了 十 进 制 中 的 0 和 1。 因 此 只 有 两 个 选择 ， 每 一 步 乘法 都 很 
简单 ; 

1. 当 乘 数位 为 ! 时 ， 只 需要 将 被 乘 数 ( 1 x 被 乘 数 ) 复制 到 合适 的 位 置 。 

2. 当 乘 数位 为 0 时 , 将 0 (0x 被 乘 数 ) 放置 到 合适 的 位 置 。 

虽然 上 面 十 进 制 的 例子 限制 只 能 使 用 0 和 1， 但 二 进 制 数 的 乘法 必须 一 直 使 用 0 和 1， 
因此 也 只 有 这 两 种 选择 。 

复习 了 乘法 的 基本 原则 之 后 ， 一 般 而 言 下 一 步 是 介绍 高 度 优化 的 乘法 硬件 。 然 而 ， 本 书 
将 打破 这 一 传统 。 我 们 认为 ， 通 过 了 解 乘法 硬件 和 算法 的 演进 ， 读 者 可 以 对 计算 机 中 的 乘法 
。 有 更 好 的 理解 。 目 前 ,我们 假设 只 有 正 数 相 乘 。 


3.3.1 顺序 乘法 算法 及 硬件 


该 设计 模仿 了 我 们 在 小 学 学 过 的 算法 。 图 3-3 给 出 了 对 应 的 硬件 结构 。 在 我 们 所 画 的 结 
构 中 ,数据 流 从 顶 至 下 ， 类 似 于 用 纸 和 笔 计算 的 方法 。 
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图 3-3 第 一 版 乘法 器 硬件 结构 。 被 乘 数 寄存 器 、ALU 和 积 寄 存 器 都 是 128 位 长 ， 只 有 乘 数 寄存 器 
为 64 位 。( 附 录 A 对 ALU 进行 了 描述 -) 64 位 的 被 乘 数 在 开始 时 放置 在 被 乘 数 寄存 器 的 右 
半 部 分 ， 然 后 每 次 左 移 一 位 。 而 乘 数 则 每 次 向 相反 的 方向 移动 。 算 法 开始 时 ， 积 被 初始 化 
为 0。 控制 器 决定 何 时 将 被 乘 数 和 乘 数 寄存 器 移 位 ， 以 及 何 时 将 新 值 写 人 积 寄存 器 


假设 乘 数 放置 在 64 位 的 乘 数 寄 存 器 
中 ，128 位 的 积 寄存 器 被 初始 化 为 0。 根 
据 上 面 采 用 纸 笔 计算 的 例子 ， 我 们 可 以 清 
楚 地 看 到 被 乘 数 在 每 步 需要 左 移 一 位 ， 因 
为 它 需 划 与 前 面 的 中 间 乘 积 相 加 。 经 过 
64 步 后 ，64 位 长 的 被 乘 数 被 左 移 64 位 。 
因此 ， 我 们 需要 一 个 128 位 的 被 乘 数 寄存 
器 ， 初 始 化 时 右 半 部 分 是 64 位 的 被 乘 数 
左 半 部 分 是 0。 该 寄存 器 每 执行 一 步 就 左 
移 一 位 ， 将 被 乘 数 与 128 位 积 寄 存 器 中 累 
积 的 和 对 齐 。 

图 3-4 给 出 了 每 一 位 所 需 的 三 个 基本 
步 又。 乘 数 的 最 低 有 效 位 ( 乘 数 的 第 0 位 ) 
决定 了 被 乘 数 是 否 被 加 到 积 寄 存 器 上 。 第 
二 步 中 左 移 的 作用 是 将 中 间 的 操作 数 移 到 
左边 ， 如 同 用 纸 和 笔 做 乘法 一 样 。 第 三 步 
中 的 右 移 给 出 了 下 一 个 迭代 中 要 检查 的 乘 
数位 。 这 三 个 步骤 要 重复 64 次 以 获得 乘 
积 。 如 果 每 步 需 要 一 个 时 钟 周期 ， 该 算法 
需要 大 概 200 个 时 钟 周 期 来 完成 两 个 64 
位 的 数 相 乘 。 乘 法 操作 的 相对 重要 性 因 程 
序 而 异 ， 一般 加 法 和 减法 出 现 的 次 数 要 比 
乘法 多 5 ~ 100 倍 。 因 此 ， 在 许多 应 用 程 
序 中 ， 乘 法 会 消耗 若干 个 时 钟 周期 而 不 会 
显著 影响 性 能 。 然 而 ，Amdahl 定律 ( 见 








图 3-4 第 一 种 乘法 算法 ， 使 用 图 3-3 中 的 硬件 。 如 


果 乘 数 的 最 低 有 效 位 为 1， 则 将 被 乘 数 与 积 相 
加 。 和 否则 ， 进 入 下 一 步 。 在 下 两 步 中 将 被 乘 
数 左 移 并 将 乘 数 厂 移 。 这 三 个 步骤 重复 64 次 
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1.10 节 ) 提醒 我 们 ， 一 个 缓慢 执行 的 中 等 频率 的 操作 ， 也 可 能 限制 程序 的 性 能 。 

这 个 算法 和 硬件 结构 很 容易 改进 成 每 一 步 只 需要 一 个 时 钟 周期 。 加 速 来 自 于 对 这 些 操作 的 
并 行 执行 : 如 果 乘 数位 为 1， 乘 数 和 被 乘 数 进行 移 位 ， 同 时 将 被 乘 数 和 积 相 加 。 硬 件 只 需 保 证 
测试 的 是 乘 数 中 正确 的 位 ， 并 得 到 之 前 被 移 位 的 被 乘 数 。 注 意 到 加 法 器 和 寄存 器 中 有 未 使 用 的 
部 分 后 ， 可 以 进一步 优化 硬件 ， 将 加 法 器 和 寄存 器 的 位 长 减 半 。 图 3-5 展示 了 改进 后 的 硬件 。 














Shift right 
Write 


图 3-5 乘法 器 硬件 的 改进 版 。 与 图 3-3 中 的 第 一 版 硬件 结构 对 比 。 被 乘 数 寄存 器 、ALU 、 乘 数 
寄存 器 都 是 64 位 ， 只 有 积 寄 存 器 是 128 位 。 现 在 将 积 右 移 。 单 独 的 乘 数 寄存 器 也 取消 
了 。 乘 数 放 在 积 寄存 器 的 右 半 部 分 。 这 些 改变 在 图 中 用 灰色 表示 (乘法 寄存 器 实际 上 应 
该 是 129 位 ， 以 保存 加 法 器 的 进位 ， 但 这 里 只 显示 了 128 位 ， 以 突出 从 图 3-3 的 演变 ) 


| 甘 丁 和 伴 所 加 与 常数 相 乘 时 ， 乘 法 也 可 以 用 移 位 来 代替 。 一 些 编译 器 将 含有 短 常 数 
的 乘法 替换 为 一 系列 的 移 位 和 加 法 。 因 为 左 移 一 位 等 价 于 将 一 个 数 放 大 两 倍 ， 所 以 左 移 和 乘 
以 2 为 底 的 指数 有 着 等 同 的 效果 。 如 第 2 章 所 介绍 的 ， 几 乎 每 个 编译 器 都 将 以 2 为 底 的 指数 
乘法 替换 为 向 左 移 位 来 进行 优化 。 


| 例题 | 乘法 算法 . 
为 了 节省 篇 幅 ， 本 例 使 用 4 位 长 的 数 ， 计 算 2m x 3em， 或 0010wo x 001lwoo 

| 答案 | 图 3-6 给 出 了 按 图 3-4 中 标 出 的 每 一 步 执行 后 各 个 寄存 器 的 值 ， 最 终结 果 为 00000110w， 

即 6mm。 灰 色 标记 了 每 步 中 改变 的 寄存 器 值 。 带 圈 的 位 用 于 决定 下 一 步 的 操作 。 



























































0 初始 值 0010 0000 0010 0000 0000 
1a，1 一 乘积 = 乘积 + 被 乘 数 0011 0000 0010 0000 0010 
a 2: 左 移 被 乘 数 0011 0000 0100 00000010 | 
3: 右 移 乘 数 oo 0000 0100 0000 0010 | 
1a: 1 一 乘积 = 乘积 + 被 乘 数 0001 0000 0100 00000110 | 
2 2: 左 移 被 乘 数 0001 0000 1000 0000 0110 | 
3: 右 移 乘 数 0000 0000 1000 0000 0110 
1: 0 一 无 操作 0000 0000 1000 00000110 | 
3 2: 左 移 被 乘 数 0000 0001 0000 00000110 | 
3: 右 移 乘 数 000D 0001 0000 0000 0110 
1: 0 一 无 操作 0000 0001 0000 0000 0110 
4 2: 左 移 被 乘 数 0000 0010 0000 0000 0110 
3: 右 移 乘 数 0000 0010 0000 00000110 | 














图 3-6 使 用 图 3-4 中 算法 的 乘法 例子 。 圈 起 来 的 是 决定 下 一 步 操作 的 位 
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3.3.2 ”有 符号 乘法 


到 目前 为 止 , 我 们 处 理 的 都 是 正 数 。 对 于 理解 如 何 处 理 有 符号 数 ， 最 简单 的 方法 是 首先 
将 被 乘 数 和 乘 数 转 化 为 正 数 ， 并 记 住 原来 的 符号 。 算 法 下 一 步 迭代 31 次 ”， 符 号 位 不 参与 运 
算 。 就 像 我 们 在 小 学 学 的 一 样 ， 只 有 当 原 来 两 个 数 的 符号 不 同时 ， 才 需要 将 乘积 取 人 负 。 

这 表明 后 面 的 算法 对 于 有 符号 数 同 样 适用 ， 只 要 记 住 处 理 的 数据 只 有 有 限 位 数 ， 我 们 
仅仅 用 64 位 表示 它们 。 因 此 ， 移 位 步骤 需要 对 有 符号 数 乘积 的 符号 进行 扩展 。 算 法 结束 时 ， 
低位 的 双 字 存放 64 位 的 乘积 。 


3.3.3 ”更 快速 的 乘法 

柄 品 湛 律 提供 了 这 么 多 的 资源 ， 硬 件 设计 者 可 以 设计 更 快 的 乘法 器 。 在 乘法 运算 开始 
时 ， 通 过 检查 乘 数 的 64 位 ， 就 可 以 知道 是 否 要 加 上 被 乘 数 。 快 速 乘法 的 主要 思想 是 为 乘 数 
的 每 一 位 提供 一 个 64 位 的 加 法 器 : 一 个 输入 是 被 乘 数 和 某 乘 数位 相 与 的 结果 ， 另 一 个 是 上 
一 个 加 法 器 的 输出 。 

一 种 直接 的 方法 是 将 右边 加 法 器 的 输出 作为 左边 加 法 器 的 输入 ， 形 成 一 个 高 64 位 的 加 
法 器 栈 。 另 一 种 方法 是 将 64 个 加 法 器 组 织 成 一 个 并 行 树 ， 如 图 3-7 所 示 。 这 样 ， 我 们 只 需 
要 等 待 logx(64)， 即 6 次 64 位 加 法 的 时 间 ， 而 不 是 等 待 64 次 加 法 的 时 间 。 
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Product127 Product126 Product95..32 jn Product1 ProductO 
图 3-7 快速 乘法 器 硬件 结构 。 该 结构 使 用 63 个 加 法 器 “展开 循环 ”来 实现 最 短 延 迟 ， 而 不 是 使 用 单 
个 64 位 的 加 法 器 63 次 


事实 上 ， 通 过 使 用 进位 保留 加 法 器 (carry save adder， 见 附录 A 的 A.6 节 )， 我们 可 以 
让 乘法 的 速度 比 6 次 加 法 更 快 。 而 且 这 种 设计 更 容易 被 内 泪 绕 化 ， 以 支持 多 个 乘法 ( 见 第 4 
章 ) 同时 执行 。 
3.3.4 LEGv8 中 的 乘法 

为 了 产生 正确 的 有 符号 和 无 符号 的 128 位 乘积 ，LEGv8 提供 了 三 条 指令 : 乘法 (MUL)、 
有 符号 高 位 乘法 ( SMULH) 和 无 符号 高 位 乘法 (UMULH)。 为 了 获得 64 位 的 整数 积 ， 程 序 员 
需要 使 用 MUL 指令 。 为 了 获得 128 位 积 中 的 高 64 位 ， 程 序 员 需要 使 用 SMULH 或 UMULH 指 
令 ， 具体 使 用 哪 种 指令 取决 于 乘 数 和 被 乘 数 的 类 型 。 

日 ”如 果 是 两 个 32 位 的 有 符号 数 相 乘 。 一 一 泽 者 注 
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3.3.5 小 结 


乘法 硬件 进行 简单 的 移 位 和 加 法 ， 类 似 于 小 学 生 采用 纸 和 笔 的 计算 方法 。 编 译 器 甚至 会 用 
移 位 指令 来 代替 2 的 宕 次 的 乘法 操作 。 如 果 有 更 多 硬件 进行 串 千 加 法 ， 运 算 速度 还 将 提高 更 多 。 

同 种 各 拉 二 之 LEGv8 乘法 指令 并 不 会 设置 条 件 码 中 的 溢出 位 ， 因 此 要 由 软件 来 检测 
是 否 因 乘积 过 大 而 无 法 用 64 位 表示 。 对 于 UMULH 指令 ， 若 高 64 位 是 0 就 没有 溢出 。 或 对 
于 SMULH 指令 ， 若 高 64 位 是 低 64 位 符号 位 的 重复 ， 那 么 也 没有 溢出 。 


3.4 ”除法 
乘法 的 着 操作 是 除法 ， 除 法 使 用 频率 较 乘法 更 少 ， 而 且 很 诡异 ， | pivide et impera 
甚至 可 能 会 出 现 数学 上 的 无 效 操作 : 被 0 除 。 入 本 请， 车 为 。 汾 而 游 之 % 马 


首先 我 们 通过 十 进 制 数 的 长 除 来 回忆 一 下 除法 操作 数 的 命名 以 人 
及 小 学 时 就 学 习 过 的 除法 算法 。 和 前 面 的 章节 类 似 ， 为 简单 起 见 ， 
我 们 限制 每 一 个 十 进 制 位 只 能 是 0 或 1。 下 面 的 例子 计算 1001010u 除 以 1000wen: 
100lten 商 
除数 1000:e 0 被 除数 





10ien 余数 
除法 的 两 个 操作 数 称 为 被 除数 ( dividend) 和 除数 ( divisor)， 结 果 称 为 商 (quotient)， 还 有 一 
个 第 二 结果 ， 称 为 余数 (remainder)。 这 里 用 一 种 方式 来 表达 它们 之 间 的 关系 : 
被 除数 = 商 xX 除数 + 余数 
上 式 中 余数 小 于 除数 。 少 数 时 候 ， 程 序 使 用 除法 指令 可 能 仅仅 为 了 | 被 除数 : 被 除 的 数 。 
获得 余数 ， 而 忽略 商 。 

小 学 时 学 过 的 最 简单 的 除法 算法 每 次 尝试 看 最 大 能 减 多 少 ， 并 “| 除数 : 除 被 除数 的 数 。 
产生 商 的 一 位 。 对 于 我 们 选用 的 只 包含 0 和 !1 的 十 进 制 例子 ， 很 容 
易 判 断 出 除数 可 以 进 人 被 除数 部 分 多 少 次 : 0 次 或 者 1 次 。 二 进 制 
数 仅 包含 0 和 1， 因此 二 进 制 除法 也 只 有 这 两 种 选择 ， 从 而 简化 了 
二 进 制 除法 。 

现在 假设 被 除数 和 除数 都 是 正 数 ， 因 此 商 和 余数 非 负 。 除 法 的 
操作 数 和 两 个 结果 都 是 64 位 的 值 ， 并 且 我 们 目前 忽略 符号 位 。 


3.4.1 除法 算法 及 硬件 

图 3-8 给 出 了 模拟 小 学 除法 算法 的 硬件 结构 。 初 始 时 ，64 位 的 商 寄存 器 设 为 0。 算法 每 
次 迭代 将 除数 向 右 移 一 位 ， 因 此 开始 时 除数 放置 在 128 位 除数 寄存 器 的 左 半 部 分 ， 并 且 每 一 
步 右 移 1 位 以 便 和 被 除数 对 齐 。 余 数 寄存 器 以 被 除数 的 值 进 行 初始 化 。 

图 3-9 给 出 了 第 一 种 除法 算法 的 3 个 步 又。 不 像 人 类 那么 聪明 ， 计 算 机 无 法 提前 知道 除 
数 是 否 小 于 被 除数 。 所 以 需要 在 第 1 步 中 先 减 去 除数 ， 类 似 于 我 们 进行 比较 操作 。 如 果 结 果 
为 正 ， 则 除数 小 于 或 等 于 被 除数 ， 则 在 商 中 生成 一 个 1 (第 2a 步 )。 如 果 结 果 为 负 ， 则 下 一 
步 通过 将 除数 加 上 余数 来 恢复 原来 的 值 ， 并 在 商 中 生成 一 个 0 (第 2b 步 )。 除 数 右 移 ， 然 后 


商 : 除法 的 主要 结果 ; 该 
数 乘 以 除数 并 加 上 余数 产 
生 被 除数 。 





余数 : 除法 的 第 二 个 结果 ， 
与 商 和 除数 的 乘积 相 加 产 
生 被 除数 。 
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再 次 迭代。 迭代 完成 后 ， 余 数 和 商 存放 在 以 它们 命名 的 寄存 器 中 。 


一 一 如- 


Divisor 
Shift right 


128 bits 


128-bit ALU 
Remainder Control 
Write test 
128 bits 


图 3-8 第 一 版 除法 器 硬件 结构 。 除 数 寄 存 器 、ALU、 余 数 寄存 器 都 是 128 位 ， 只 有 商 寄存 器 是 64 
位 。64 位 的 除数 开始 放置 在 除数 寄存 器 的 左 半 部 分 每 次 迭代 右 移 一 位 。 余 数 寄存 器 初始 化 为 
被 除数 。 控 制 器 决定 何 时 对 除数 和 商 寄 存 器 进行 移 位 ， 以 及 何 时 将 新 值 写 入 余数 寄存 器 









Quotient 
Shift left 


64 bits 



















图 3-9 使 用 图 3-8 中 硬件 的 除法 算法 。 如 果 余 数 为 正 ， 则 将 除数 从 被 除数 中 减 去 ， 因 此 在 第 2a 
步 取 商 为 1。 如 果 第 1 步 之 后 余数 为 负 ， 则 意味 着 除数 不 能 从 被 除数 中 减 去 ， 所 以 在 第 
2b 步 中 取 商 为 0， 并 将 除数 加 到 余数 上 ， 即 做 第 1 步 中 减法 的 逆 操 作 9。 第 3 步 进行 最 后 
的 移 位 ， 根 据 下 一 个 迭代 的 被 除数 ， 将 除数 适当 对 齐 。 这 些 步 骤 需 要 重复 65 次 


名 ”通过 加 法 恢复 。 一 一 译 者 注 
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| 例题 | 除法 算法 机 

为 了 节省 篇 幅 ， 我 们 使 用 4 位 数据 验证 算法 。 计 算 Te 除 以 2 ， 即 00000 11lw。 除 以 0010w。。 
| 答案 | 图 3-10 给 出 了 每 步 中 各 个 寄存 器 的 值 ， 其 中 商 为 3m， 余 数 为 lw。 注意 ,第 2 步 中 
余数 的 正 负 检测 只 需要 简单 地 测试 余数 寄存 器 的 符号 位 是 0 还 是 1。 令 人 惊讶 的 是 ， 该 算法 
需要 n+ 1 步 来 获得 适当 的 商 和 余数 。 







































































0 初始 值 0000 0010 0000 0000 0111 
1: 余数 = 余数 -除数 0000 0010 0000 | Q@1100111 
1 2b: 余数 < 0 一 + 除数 ， 商 左 移 ， 商 最 低位 =0 | 0000 00100000 | 00000111 
3: 除数 右 移 0000 | 00010000 | 00000111 
1: 余数 = 余数 -除数 0000 0001 0000 M11 0111 
2 2b: 余数 < 0 一 + 除数 ， 商 左 移 ， 商 最 低位 =0 | 0000 0001 0000 0000 0111 
3: 除数 右 移 0000 0000 1000 0000 0111 
1: 余数 = 余数 -除数 0000 0000 1000 M11 1111 | 
3 2b: 余数 < 0 一 + 除数 ， 商 左 移 ， 商 最 低位 =0 | 0000 0000 1000 0000 0111 
3: 除数 右 移 0000 | 00000100 | 00000111 
1: 余数 = 余数 -除数 0000 0000 0100 | ooo 0011 
4 2a: 余数 > 0 一 商 左 移 ， 商 最 低位 =1 0001 0000 0100 0000 0011 
3: 除数 右 移 0001 0000 0010 | 0000 0011 
1; 余数 = 余数 - 际 数 0001 0000 0010 | ooo 0001 
5 2a: 余数 > 0 过 商 左 移 ， 商 最 低位 =1 O011 0000 0010 | 0000 0001 
3: 除数 右 移 0011 0000 0001 0000 0001 





图 3-10 采用 图 3-9 中 算法 的 除法 例 了 。 图 中 图 起 来 的 位 用 丁 决定 下 一 步 的 操作 
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上 述 算法 和 对 应 的 硬件 结构 可 以 改进 得 更 快 、 更 便宜 。 通 过 将 操作 数 和 商 的 移 位 与 减法 “|200| 











同时 执行 可 以 实现 加 速 。 这 种 改进 将 加 法 器 和 寄存 器 的 宽度 减少 一 半 (注意 寄存 器 和 加 法 器 
还 有 未 使 用 的 部 分 )。 图 3-11 给 出 了 改进 后 的 硬件 结构 。 










PS 
Shift {ert 





图 3-11 除法 器 硬件 的 一 种 改进 版 本 。 除 数 寄存 器 、ALU、 商 寄存 器 都 是 64 位 ， 只 有 余数 寄存 
器 为 128 位 。 与 图 3-8 相 比 ，ALU 和 除数 寄存 器 都 是 位 宽 减 半 ， 并 且 余 数 变 成 进行 左 
移 。 这 个 结构 将 商 寄 存 器 和 余数 寄存 器 的 右 半 部 分 进行 了 拼接 (如 图 3-5 中 那样 ， 余 
数 寄 存 器 应 该 是 129 位 以 保证 加 法 器 产生 的 进位 不 会 丢失 ) 


3.4.2 ”有 符号 除法 


到 目前 为 止 ， 我 们 一 直 忽 略 了 除法 中 的 符号 问题 。 最 简单 的 解决 方法 是 记 住 除数 和 被 除 
数 的 符号 ， 如 果 两 者 不 同 ， 则 商 取 负 。 
陋 病 8 有 符号 除法 的 一 个 复杂 之 处 是 必须 设置 余数 的 符号 。 记 住 ， 下 面 的 公式 必须 一 直 满足 : 
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被 除数 = 商 x 除数 + 余数 
为 了 理解 如 何 设置 余数 的 符号 ， 我 们 来 观察 一 下 土 Ten 除 以 土 2 的 各 种 组 合 。 第 一 种 
情况 很 简单 : 
(+7)=(+2): 商 =+3， 余 数 =+1 

检查 结果 : 

+7=3x2+(+1)=6+1 
如 果 改 变 被 除数 的 符号 ， 商 也 会 改变 : 

(-7) = (+2): 商 =-3 


重 写 基 本 公式 来 计算 余数 : 
余数 =( 被 除数 一 商 x 除数 )=(-7)-((-3)x(+2))=(-7)-(-6)=-l 
从 而 有 
(-7) > (+2): 商 =-3， 余数 =-1 
再 次 检查 结果 : 


-7=(-3) Xx2+(-1)=-6-l 
商 是 -4 且 余数 是 + 1 同样 也 满足 基本 公式 ,但 不 能 取 这 个 答案 。 原 因 是 在 这 种 情况 下 ， 商 
的 绝对 值 将 会 根据 被 除数 和 除数 的 符号 而 改变 ! 很 明显 ， 如 果 
-ny 
这 将 使 编程 面临 更 大 的 挑战 。 这 种 异常 的 行为 可 以 通过 保持 被 除数 和 余数 的 符号 相同 (而 不 
管 除数 和 商 的 符号 如 何 ) 来 避免 。 
我 们 采用 相同 的 规则 计算 其 他 组 合 : 

(+7)=(-2): 商 =-3， 余数 =+1 

(-7) = (-2): 商 =+3， 余 数 =-1 
因此 ， 正 确 的 有 符号 除法 算法 在 两 个 操作 数 的 符号 相反 时 令 商 为 负 ， 并 使 非 零 余数 的 符号 与 
被 除数 匹配 。 


3.4.3 ”更 快速 的 除法 

与 乘法 类 似 ， 将 内 潜 定律 应 用 于 除法 ， 我 们 可 能 想 通过 使 用 更 多 的 硬件 来 加 速 除法 。 
我 们 使 用 大 量 的 加 法 器 加 速 乘法 ， 但 这 一 招 对 除法 却 不 管用 。 原 因 是 ， 除 法 算法 每 进行 下 一 
个 步骤 之 前 都 需要 知道 差 的 符号 ， 而 乘法 却 可 以 立刻 生成 64 个 部 分 积 。 

有 一 些 技术 可 以 每 一 步 生成 不 止 一 位 商 。 如 SRT 除法 ， 每 一 步 通 过 使 用 一 个 基于 被 除 
数 和 余数 高 位 的 查找 表 来 冉 测 若干 位 商 ， 并 依赖 于 后 面 的 步 又 来 修正 错误 的 预测 。 目 前 典型 
的 位 数 是 4 位 。 算 法 的 关键 是 猜测 减法 的 值 。 而 对 于 二 进 制 除法 ， 只 有 一 种 选择 。 这 些 算法 
使 用 余数 的 6 位 和 除数 的 4 位 来 索引 查找 表 ， 从 而 决定 每 步 的 猜测 。 

这 个 快速 算法 的 正确 性 取决 于 查找 表 中 的 值 是 否 合适 。3.9 节 给 出 了 如 果 查 找 表 不 正确 
将 会 出 现 的 情况 。 


3.4.4 LEGv8 中 的 除法 


你 可 能 已 经 发 现 图 3-5 和 图 3-11 中 ， 乘 法 和 除法 可 以 使 用 相同 的 硬件 结构 。 唯 一 需求 是 
一 个 128 位 的 可 左右 移 位 的 寄存 器 和 一 个 能 做 加 减法 的 64 位 的 ALU。 

为 了 既 可 以 处 理 有 符号 整数 又 可 以 处 理 无 符号 整数 ，LEGv8 采用 两 条 指令 : 有 符号 除 
(SDIV) 和 无 符号 除 (UDIV)。 


计 依 机 的 第 术 运算 
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3.4.5 ”小结 


乘法 和 除法 具有 相同 的 硬件 支持 ,这 允许 LEGv8 提供 同一 对 64 位 寄存 器 用 于 乘法 和 除 
法 。 通 过 预测 多 位 商 的 方法 可 以 加 速 除法 的 执行 ， 预 测 错 误 时 进行 恢复 。 图 3-12 汇总 了 前 
面 两 节 中 LEGv8 体系 结构 的 增强 处 理 。 





LEGv8 汇 编 语言 


含 广 























































































































store exclusive reglster | STXR 。 X1 ， 





X3， 













[x2] 


[add ADD xi, x2, x3 [Xi = xX2+X3 
Subtract SUB Xi, x2, x3 [Xi -= x2 -Xx3 三 个 寄存 器 操作 数 
add immediate ADDT xi, x2, 20 [Xi = X2 + 20 用 于 加 常数 
subtractimmediate |5UBl xi, x2, 20 |x1 =- X2 20 用 于 减 常 数 
add and set flags ADDS Xi, X2, x3 [a = XT + 加 法 ， 设 置 条 件 码 
subtractand setfags |5UBS Xl, Xx2, X3 |X1 ~ Xx2 - X3 | 减法 ， 设 置 条 件 码 
i a 加 常数 ， 设 置 条 件 码 
运算 ee and|suBls x1, x2, 20 |x1=x2-20 减 常数 ， 设 置 条 件 码 
muttiply X1, X2, X3 |X1=X2xX3 128 位 乘积 的 低 64 位 
signed multiply high i X1 =X2xX3 128 位 有 符号 乘积 的 高 64 位 
unsigned muitiply high 池 了 X1=X2xX3 128 位 无 符号 乘积 的 高 64 位 
signed divide Xi, X2, x3 |Xi = X2 / X3 除法 ， 将 操作 数 作 为 有 符号 数 
unsigned divide UDIV Xl, x2, XxX3 [Xi = x2 / x3 除法 ， 将 操作 数 作为 无 符号 数 
load register LDUR Xl, [X2,40] [Xl = Memory[X2 + 40] 将 双 字 从 存储 器 取 到 寄存 器 
store register [STUR x1, [xX2,40] | Memory[X2 + 40] ~ Xl 将 双 字 从 寄存 器 存 入 存储 器 
load signed word LDURSW Xl1, CxX2,40] [Xl = Memory[X2 + 40] 将 一 个 字 从 存储 器 取 到 寄存 器 
Store word STURYW Xl, [X2,40] | Memory[X2 + 40] ~ XI 将 一 个 字 从 寄存 器 存 入 存储 器 
load half _| LouRH_X，[x2,40] |X1 ~ Memory[LX2 + 40] 将 半 字 从 存储 器 取 到 寄存 器 
store half STURH_X1, [X2.40] |Memory[X2 + 40] = XI 将 半 字 从 寄存 器 存 入 存储 器 
数据 |load byte LDURB X1，[X2.40] |Xl = Memory[X2 + 40] 将 一 个 字 节 从 存储 器 取 到 寄存 器 
传输 | Store byte STURB Xl, [X2,40] |Memory[X2 + 40] = x1 将 一 个 字 节 从 寄存 器 存 入 存储 器 
load exclusive register | LDXR X1, [xX2.,0] X1 = Memory[X2] 取 数 ， 原 子 交换 的 第 一 部 分 





Memory[X2]=X1;X3=0 or 1 
Xl1 = 20 or 20 * 216 or 













存 数 ， 原 子 交换 的 第 二 部 分 





























move wide with zero |MOVZ X11,20 20 + 2 Or 20 4 2 取 16 位 常数 ， 其 余 位 置 0 

X1 = 20 or 20 * 216 
move wide withkeep |MOVK x1,20 20 > -22 i 20* 2 有 取 16 位 常数 ， 其 余 位 不 变 
and AND X1, Xx2, X3 |X1 = x2 & X3 三 个 寄存 器 操作 数 ， 按 位 与 
inclusive or ORR Xl, X2, Xl = X2 | Xx3 个 寄存 器 操作 数 ， 按 位 或 
exclusive or EOR Xl1, Xx2, Xl = X2 * X3 三 个 奇 存 器 操作 数 ， 按 位 异 或 





and immediate ANDI 






Xl1, 













X2 & 20 

















奇 存 器 数 和 常数 技 位 与 












































逻辑 | inclusive orimmediate |ORRI Xx1, x2, 20 |x1 = x2 | 20 寄存 器 数 和 常数 按 位 或 
运算 |exclusive orimmediate |EORI Xl, X2, 20 | xi = X2 ”20 寄存 器 数 和 常数 按 位 异 或 
logical shift left LSL Xx1, x2, 10 |x1 = x2 “< 10 向 左 移动 常数 位 
logical shift right LSR X1, x2, 10 |X1 = X2 >> 10 向 右 移动 常数 位 
compare and branch on if (XI — 0) go to PC+ 
| 中 本 比较 是 否 等 于 0; PC 相对 中 转 
条 件 | compare and branch on if (Xl!= 0) go to PC + lL 
分 支 notequal0 CBNZ Xx1, 25 4 + 100 比较 是 否 不 等 于 0; PC 相对 跳 转 
if (condition true) go to 
branch conditionaly ”|8.cond 25 了 条 件 码 检测 ; 结果 为 真 则 跳 转 
branch B 2500 go to PC + 4 + 10000 跳 转 到 目标 地 址 ; PC 相对 
无 条 件 | branch to register BR X30 go to X30 用 于 switch 语 句 ， 过 程 返 回 
跳 转 | branch with link BL 2500 人 人 用 于 PC 相对 的 过 程 调 用 











图 3-12 LEGv8 核心 体系 结构 


=- LEGv8 参考 数据 卡 中 列 出 了 LEGv8 机 器 语言 
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十 笠 % 软 穆 楼 名 LEGv8 除法 指令 忽略 溢出 ， 因 此 需要 软件 来 检测 商 是 否 太 大 。 除 了 省 
出 ， 除 法 还 可 能 引起 不 当 的 计算 : 被 0 除 。 一 些 计 算 机 会 区 别 这 两 种 异常 事件 。 同 溢出 一 样 ， 
LEGv8 软件 必须 检查 除数 来 确定 是 否 会 被 0 除 。 

睛 钴 一 种 更 快 的 算法 是 在 余数 为 负 时 ， 不 需要 立即 将 除数 加 回去 。 该 算法 在 下 一 步 中 
简单 地 将 被 除数 加 到 移 位 后 的 余数 上 ， 因 为 + 四 x2-d=rx2+dx2-d=rx2+ 这 
种 不 恢复 (nonrestoring) 除法 每 步 需 要 一 个 时 钟 周期 ， 将 会 在 练习 题 中 进一步 探究 ; 而 前 面 
介绍 的 算法 称 为 恢复 (restoring) 除法 。 第 三 种 算法 在 减法 结果 为 负 时 不 保留 减法 的 结果 ， 称 
为 不 执行 (nonperforming) 除法 。 该 算法 平均 可 减少 三 分 之 一 的 算术 运算 。 


3.5 浮 点 运算 

除了 有 符号 和 无 符号 整数 ， 编 程 语言 也 支持 带 小 数 的 数 ， 即 数 。 | 如 果 方向 错 了 ， 再 快 也 白搭 
学 中 的 实数 。 例 如 : 间 因 评语 

3.141 592 65… un(r) 

2.718 28… in (€) 


0.000 000 00le 即 1.0eax10?( 纳 秒 级 ) 

3 155 760 000wen 即 3.155 76e。x 10? (一 个 世纪 的 秒 数 ) 

注意 ， 最 后 一 例 中 的 数字 并 不 是 一 个 很 小 的 数 ， 实 际 上 比 我 们 用 32 位 有 符号 整数 表示 
的 数 还 要 大 。 上 例 中 最 后 两 个 数 的 记 数 法 称 为 科学 记 数 法 (scientific 
notation)， 小 数 点 左边 只 有 一 个 数位 。 一 个 采用 科学 记 数 法 表示 的 。 | 天涯 外 法 伐 点 和光 
数 ， 若 没有 前 导 零 ( 且 小 数 点 左边 只 有 一 位 数 )， 则 称 为 规格 化 . 


-9 i 归 
(normalized) 数 。 例 如 ，1.0。x 10” 就 是 规格 化 的 科学 记 数 形式 ， | 和 


但 0.lmx 10“ 和 10.0ex 10 "不 是 。 的 浮 点 记 数 法 表示 的 数 。 

正如 我 们 用 科学 记 数 法 来 表示 十 进 制 数 那样 ， 也 可 以 用 科学 记 
数 法 来 表示 二 进 制 数 ， 

Lag 

为 了 保持 二 进 制 数 的 规格 化 形式 ， 需 要 定义 一 个 基数 ， 该 基数 可 通过 移 位 ( 左 移 或 右 移 ) 
使 小 数 点 左边 只 保留 一 位 非 零 数 。 只 有 基数 为 2 满足 需求 。 因 为 基数 不 是 10， 所 以 我 们 需要 
一 个 新 的 名 字 来 表示 小 数 点 一 一 二 进 制 小 数 点 (binary point)。 

计算 机 算术 支持 的 这 类 数 称 为 浮 点 数 ( floating point)， 因 为 其 A 
表示 的 数 的 二 进 制 小 数 点 是 不 固定 的 。C 语言 中 用 float 来 表示 这 类 | 让 娄 : 和 如下 相 二 的 
数 。 正 如 科学 记 数 法 那样 ， 数 被 表示 为 二 进 制 小 数 点 左边 只 有 一 位 
非 零 数 的 形式 。 在 二 进 制 中 ， 其 格式 为 : 

1 OooCoCEKtwo X 2207 

( 同 其 他 数 一 样 ， 计 算 机 以 2 为 基 来 表示 指数 。 但 为 了 简化 表示 ， 这 里 我 们 用 十 进 制 来 表示 
指数 。) 

采用 规格 化 形式 的 标准 科学 记 数 法 表示 实数 具有 三 个 优点 : 简化 了 包含 浮 点 数 的 数据 交 
换 ; 简化 了 浮 点 算术 算法 ， 所 有 的 数 都 用 该 形式 表示 ; 提高 了 一 个 字 所 存储 的 数 的 数据 精度 ， 
因为 二 进 制 小 数 点 右边 的 有 效 位 代替 了 无 用 的 前 导 零 。。 


名 即 尽 可 能 增加 有 意义 的 位 数 。 一 一 译 者 注 
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3.5.1 浮 点 表示 

浮 点 表示 的 设计 者 必须 在 尾数 (fraction) 位 数 和 指数 (exponent) 
位 数 之 间 找 到 折 中 ， 因 为 字 的 大 小 是 固定 的 ， 这 意味 着 有 一 部 分 增加 
一 位 ， 另 一 部 分 就 要 减少 一 位 。 这 种 折 中 是 在 精度 和 表示 范围 间 进 行 
权衡 : 增加 尾数 部 分 会 增加 表示 精度 ， 而 增加 指数 部 分 会 增加 数 的 表 
示范 围 。 正 如 第 2 章 中 所 提 到 的 设计 原则 ， 好 的 设计 需要 好 的 折 中 。 

浮 点 数 通常 是 多 个 字 的 宽度 。LEGvg 的 浮 点 数 表示 如 下 : s 为 
浮 点 数 的 符号 ( 1 表示 负数 )， 指 数 是 一 个 8 位 字段 所 表示 的 值 ( 包 
括 指 数 的 符号 位 )， 屁 数字 段 为 23 位 。 如 第 2 章 所 述 ， 这 种 表示 法 称 为 符号 和 幅 值 ， 因 为 符 
号 相对 于 其 他 数值 部 分 是 一 个 单独 的 位 。 


31 |30 29 |28|27 26 25 24|23 22|21 20 19 18 |17|16 15 14 13 12|11 1019|8 7|615|4|1312|1 0 
Ss 指数 尾数 


1 位 8 位 | 23 位 
通常 ， 浮 点 数 表示 为 这 样 的 形式 : 


尾数 : 也 称 为 小 数 ， 位 于 
浮 点 数 的 尾数 字段 ， 其 值 
在 0 和 1 之 间 。 





指数 ; 在 浮 点 运算 的 数值 
表示 系统 中 ， 位 于 指数 字 
段 的 值 。 















































(-DsxFXx28 
F 为 小 数 (尾数 ) 字段 的 值 ，E 为 指数 字段 的 值 。 后 面 会 详细 讲解 这 些 字段 之 间 具 体 的 关系 。 
(我 们 很 快 会 看 到 LEGv8 的 做 法 更 为 复杂 。) 
指数 和 尾数 位 数 的 选 定 ， 使 得 LEGv8 计算 机 运算 具有 很 大 的 数值 表示 范围 。 小 到 如 
2.0mx 10 闷 的 数 ， 大 到 如 2.0wo x 108 的 数 都 可 以 在 计算 机 中 表示 。 
但 与 无 穷 数 不 同 ， 依 然 可 能 有 些 数 因 太 大 而 不 能 表示 。 因 此 ， 和 整 人 
数 算术 运算 一 样 ， 浮 点 算术 运算 中 也 会 产生 溢出 中 断 。 注 意 ， 这 里 | 二 ww 示 共 国 。 
的 溢出 overflow) 意味 着 指数 太 大 而 超过 了 指数 字段 的 表示 范围 。 
浮 点 也 会 出 现 一 种 新 的 异常 事件 。 正 如 程序 员 想 要 知道 他 们 计 
算 的 数 何 时 太 大 而 不 能 表示 那样 ， 他 们 同样 也 想 知道 一 个 非 零 的 小 | 
数 是 否 会 因为 太 小 而 不 能 表示 ; 任何 一 种 事件 都 会 造成 程序 给 出 错 
误 的 答案 。 为 了 和 上 溢 区 分 开 来 ， 我 们 将 其 称 为 下 省 ( underflow)。 
下 溢 发 生 的 条 件 是 负 的 指数 太 大 = 而 不 能 在 指数 字段 中 表示 出 来 。 | 由 一 个 64 位 的 
一 种 减少 上 溢 和 下 滋 的 方法 是 采用 另 一 种 格式 ， 使 得 指数 更 | 下 字 表 示 的 浪 点 值 
大 。C 语言 中 称 为 double， 基 于 double 的 操作 称 为 双 精 度 ( double 
precision) 浮 点 运算 ; 之 前 的 格式 称 为 单 精度 (single precision) 浮 点 。 | 单 精度 : 由 一 个 32 位 的 
如 下 所 示 ， 双 精度 浮 点 数 占用 了 一 个 LEGv8 双 字 。 其 中 ，s 仍 | 字 表示 的 浮 点 值 。 
表示 数据 的 符号 ， 指 数字 段 为 11 位 ， 尾 数字 段 为 52 位 。 










































































[6a|62]6i[6o159[s8[sz[56[55[54[53[52[s1[5o[49[48[47146[45[44[43[42[41[4o139]38137136135[34[33[32 

s 指数 尾数 

1 位 11 位 20 位 

aij30[29[28]27126]25[24[23[22[21[2o[19[18[i7[16[35[14[13[12[tt[tol9[s[7[e15[4[3[2lilo 
尾数 











32 位 


名 这 里 指 上 溢 。 一 一 译 者 注 
忆 负 指数 的 绝对 值 太 大 。 一 一 译 者 注 








206| 
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LEGv8 双 精 度 的 表示 范围 从 2.0ex 103W” 到 2.0wn x 10W。 尽 管 双 精 度 增加 了 指数 范围 ， 
但 其 主要 优势 还 是 通过 更 多 的 有 效 位 来 提供 更 大 的 表示 精度 。 


3.5.2 ”异常 和 中 断 

上 溢 和 下 溢 时 如 何 通知 用 户 出 现 了 问题 7 LEGv8 能 够 产生 一 个 “| 异常 : 也 叫 作 中 断 。 打 断 
异常 (exception)， 在 很 多 计算 机 中 也 叫 中 断 〈 interrupt)。 异 常 或 中 ee 
断 本 质 上 是 一 种 计划 外 的 程序 调用 。 导 致 上 溢 的 指令 的 地 址 保存 在 
寄存 器 中 ， 计 算 机 跳 转 到 一 个 预定 义 的 地 址 处 ， 调 用 合适 的 例 程 处 | 中断。 处 理 器 以 外 发 生 的 
理 异常 。 中 断 地 址 也 被 保存 下 来 ， 这 样 在 某 些 情况 下 ， 程 序 在 处 理 | 并 常事 件 (一 些 体系 结构 
完 异常 之 后 能 够 继续 执行 ( 4.9 节 会 详细 描述 异常 第 5 章 会 描述 异 2 pe “第 灿 地 节 衣 
常 和 中 断 发 生 的 其 他 场景 ) 。 


3.5.3 IEEE 754 浮 点 标准 


这 些 格式 超出 了 LEGv8 体系 结构 的 范围 ， 它 们 是 IEEE 754 浮 点 标准 的 一 部 分 。 从 
1980 年 以 来 ， 几 乎 每 台 计 算 机 都 遵循 该 标准 。 该 标准 极 大 地 简化 了 浮 点 程序 的 接口 ， 并 提高 
了 计算 机 算术 运算 的 质量 。 

为 了 能 打包 更 多 的 数据 位 ，IEEE 754 隐藏 了 规格 化 二 进 制 数 小 数 点 前 面 的 1。 因此， 在 
单 精 度 下 ， 数 据 有 24 位 ( 隐 含 的 1 和 23 位 尾数 )， 在 双 精 度 下 为 53 位 (1 + 52)。 为 了 精 

确 ， 我 们 用 术语 有 效 位 (significand) 来 表示 24 位 或 者 53 位 的 数 ， 即 隐 含 的 1 加 上 尾数 ， 尾 
数 为 23 或 52 位 。 因 为 0 没有 前 导 位 1， 其 指数 保留 为 0， 所 以 硬件 不 会 将 1 加 到 尾数 前 面 。 
因此 00…00w。 代表 0; 其 他 数 的 表示 依然 采用 前 面 的 形式 ， 即 加 入 一 位 隐 含 的 1， 
(-1Dsx (1+ 尾 数 ) 25 
其 中 ， 尾 数 代表 一 个 0 和 1 之 间 的 数 ，E 指明 了 指数 字段 的 值 。 如 果 从 左 到 右 将 尾数 各 位 标 
记 为 s1，s2，s3，…， 则 数 的 值 为 
(-Usx(1+(sS1Xx2-0D)+(s2x2 们 +(s3X23)+(s4X2 人 十 …)X25 

图 3-13 给 出 了 IEEE 754 浮 点 数 的 编码 。IEEE 754 标准 的 其 他 特点 是 用 特殊 的 符号 来 表 
示 异 常事 件 。 例 如 ， 软 件 可 以 将 结果 设置 成 某 种 格式 来 表示 + % 或 者 ~， 以 替代 除 0 中 断 ; 
最 大 的 指数 保留 下 来 用 以 标识 一 些 特殊 符号 。 当 程序 员 打 印 结果 时 ， 程 序 会 输出 一 个 无 穷 符 
号 。( 对 于 经 过 数学 训练 的 人 而 言 ， 无 穷 的 目的 是 形成 实数 的 拓扑 闭 包 。) 









































指数 | 尾数 指数 尾数 
0 | 0 0 0 0 
0 | 非 0 0 非 0 | 寺 非 规格 化 数 
1~254 | ”任何 什 1~2046 任何 值 | 土 浮 点 数 
255 | 0 2047 0 | 土 无 穷 
255 | 非 0 2047 非 0 | NaN ( 非 数 ， 即 不 是 数 ) 
图 3-13 IEEE 754 浮 点 数 的 编码 。 用 一 个 单独 的 符号 位 来 决定 正 负 。 非 规格 化 数 将 在 3.5.8 节 


的 精 解 中 描述 。 这 些 信息 也 可 以 在 LEGv8 参考 数据 卡 的 第 4 列 中 找到 
IEEE 754 甚至 给 出 了 一 个 符号 用 以 表示 无 效 操作 的 结果 ， 如 0/0 或 者 无 穷 减 无 穷 。 该 符 


号 为 NaN， 意 为 非 数 (Not a Number)。 使 用 NaN 的 目的 是 让 程序 员 推迟 程序 中 的 一 些 测试 
和 决断 ， 等 到 方便 的 时 候 再 进行 。 
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JEEE 754 的 设计 者 还 希望 浮 点 数 的 表示 形式 能 够 比较 容易 地 处 理 整数 比较 ， 特 别 是 排 
序 的 时 候 。 正 因 这 个 需求 ， 符 号 位 放 在 最 高 有 效 位 ， 便 于 快速 测试 小 于 、 大 于 、 等 于 0 的 情 
况 。( 比 起 简单 的 整数 分 类 ， 浮 点 稍微 复杂 些 ， 因 为 这 种 记 数 法 本 质 上 是 符号 和 幅 值 的 形式 ， 
而 不 是 补 码 形式 。) 
将 指数 放 在 有 效 位 前 也 能 够 简化 使 用 整数 比较 指令 来 实现 的 浮 点 数 排序 ， 因 为 在 两 个 指 
数 的 符号 相同 的 情况 下 ， 具 有 较 大 指数 的 数 看 起 来 要 比 指数 较 小 的 数 大 。 
负 的 指数 对 简化 排序 造成 了 挑战 。 如 果 我 们 用 补 码 或 者 其 他 的 记 数 法 ， 可 能 会 使 负 指 数 
中 指数 字段 的 最 高 位 为 1， 从 而 使 一 个 负 指 数 看 上 去 是 一 个 很 大 的 数 。 例 如 ，1.0w。x 2” 以 单 
精度 表示 为 : 











二 T T T 
31|30 29|28|27 26|25|24 23 22|21|20|19]18 17|16|15 14l13 12 11|10 918|7161514|3|211|0 
二 | 各 这 于 生计 全 











(注意 ， 有 效 位 前 面 还 有 一 个 隐 含 的 1。) 而 数 1.0w。 x 27' 看 起 来 似乎 是 一 个 较 小 的 二 进 制 数 。 






































T 二 一 一 
31|30 29 28 27 |26 25 24|23 22 21|20 19 18|17 16|15 14|13 12 11|10 esl]7[6[s 4|3|2, 1|10 
各 | 间 克 入 调 - 王 人 

















我 们 希望 记 数 法 能 将 最 小 的 负 指 数 (绝对 值 最 大 的 负 指 数 ) 表示 为 00…00w。， 而 最 大 的 
正 指数 表示 为 11…11wo。 这 种 约定 称 为 移 码 表示 ( biased notation)， 从 正常 的 数 中 减 去 一 个 
无 符号 的 偏差 ， 从 而 获得 真实 的 值 。 

IEEE 754 规定 单 精度 的 偏差 为 127， 因 此 指数 -1 表示 为 -1 + 127u 的 二 进 制 形 式 ， 即 
126e = 01111110w， 而 + 1 表示 为 1+ 127， 即 128w。= 10000000w。。 双 精度 的 指数 偏差 为 
1023。 带 偏差 的 指数 意味 着 浮 点 数 表示 的 值 实际 为 : 

(-DsXx (1+ 尾 数 ) X2 (招数 -全 生 ) 
从 而 ， 单 精度 数 的 表示 范围 从 
士 1.00000000000000000000000w。X 2 
到 
二 111111111111111111111111w。x 27 227 
下 面 举例 演示 。 209 


| 例题 | 浮 点 表示 
给 出 -0.75u 的 IEEE 754 的 单 精度 和 双 精 度 二 进 制 表示 。 
| 答案 | -0.75e 也 可 表示 为 








-3/4 或 -3/2 


二 进 制 小 数 形式 为 
一 11wo/2to 或 -0.11wo 
用 科学 记 数 法 表示 为 
-0.1lwx29 
规格 化 的 科学 记 数 形式 为 
-1.lw X27 


单 精度 的 通用 表示 形式 为 





144 党 3 重 





(-1)*X (1 二 尾数 ) X27) 
将 -1.1w。 x 27 的 指数 减 去 127， 得 到 
(1)'x(1+.1000 0000 0000 0000 0000 000w0) xX 2°°°7 "7 
故 -0.7Se 的 单 精度 二 进 制 表示 为 





























T T 
31|30|29|28|27|26|25 24 23|22|21|20|49 18|17 16 15|14|43 lz 11|10| 9 |8|7 6 5|4|3,2|10 
1|I01111110|10000000000000000000000| 
1 位 8 位 23 位 


双 精 度 表示 为 
(1)' x (1 .1000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000mwo) x 2002 "9 


















































31|30[29|28|27|26|25|24|23|22|21 20|19|18|17 16[45|14 13 lzjitlio 9|al716 .5413|2 1 o| 

ioliiiitiitiiitioltooooooooooooooooooo| 

1 位 11 位 20 位 

00000000000000000000000000000000| 
32 位 























下 面 我 们 再 看 一 个 反 向 的 例子 。 


| 例题 | 二 进 制 转 十 进 制 浮 点 。 
下 面 单 精度 浮 点 表示 的 十 进 制 数 是 什么 ? 























31|30 [29|28 [27 |26 25|24|23 22 21|2o le |18|47 16|15 14 13|12 ltliole sj 7 6|5| 4 al2|ijo] 
ililoooooodtloitooooooooooooooooooooo| 














| 答案 | 符号 位 为 1， 指 数字 段 值 为 129， 尾 数字 段 值 为 1x 22 = 1/4， 即 0.25。 使 用 基本 公式 ， 


(-Dsx(1l 十 尾数 让 (指数 一 偏差 ) 一 太 珠 x(l + 0.25) X22- 127 
=-1x1.25x22=-1.25X4 
=-5.0 





在 下 面 的 小 节 ， 我们 将 给 出 浮 点 加 法 和 乘法 的 算法 。 其 核心 是 对 尾数 使 用 相应 的 整数 操 
作 ， 但 也 需要 额外 的 工作 来 处 理 指数 部 分 并 对 结果 进行 规格 化 。 我 们 先 给 出 直观 上 的 十 进 制 
算法 ， 然 后 在 图 中 给 出 有 更 多 细节 的 二 进 制版 本 。 

| 哺 病 。 根据 IEEE 的 指导 原则 ， 在 标准 发 布 20 年 后 ，IEEE 754 委员 会 对 标准 进行 了 更 
新 。 更 新 后 的 IEEE 754-2008 标准 中 包含 了 IEEE 754-1985 标准 的 几乎 全 部 内 容 ， 并 且 增加 
了 16 位 ( 半 精 度 ) 和 128 位 (四 精度 )。 虽 然 目前 还 没有 硬件 能 够 支持 四 精度 ， 但 日 后 必 会 
实现 。 更 新 后 的 标准 也 增加 了 对 十 进 制 浮 点 运算 的 支持 ， 这 在 IBM 的 大 型 机 中 已 经 实现 。 

辆 负 为 了 既 不 减少 尾数 位 数 ， 又 能 增 大 表示 范围 ， 在 IEEE 754 标准 之 前 ， 有 些 计 
算 机 采用 了 2 以 外 的 基数 。 例 如 ，IBM 360 和 370 计算 机 以 16 为 基数 。 因 此 ，IBM 机 的 指 
数 每 改变 1， 意 味 着 尾数 将 移 4 位 ， 因 而 规格 化 数 的 前 导 零 可 能 会 多 达 3 个 ! 因此 ， 十 六 进 


计算 机 的 第 术 运 第 145 





制 数位 意味 着 有 3 位 要 从 有 效 位 中 去 掉 ， 从 而 在 浮 点 算术 的 精度 上 产生 较 大 的 问题 。 现 在 ， 
IBM 大 型 机 同时 支持 原来 的 十 六 进 制 模式 以 及 IEEE 754 标准 。 


3.5.4” 浮 点 加 法 


为 了 说 明 浮 点 加 法 中 的 问题 ， 我 们 首先 以 手工 过 程 将 科学 记 数 法 表示 的 两 个 数 相 加 ; 
9.999wo x 10 + 1.610ex 10'。 假 设 有 效 位 只 有 4 个 十 进 制 数位 ， 且 指数 为 两 个 十 进 制 数位 。 
步骤 1。 为 了 能 让 两 数 相 加 ， 我 们 必须 对 指数 较 小 的 数 的 小 数 点 进行 调整 ， 使 
1.610ien x 10- 的 指数 向 较 大 的 指数 对 齐 。 一 个 非 规格 化 的 浮 点 数 有 多 种 科学 记 数 法 的 表示 
形式 : ? 
1.610ien x 10" = 0.1610wn x 10°= 0.01610,e。x 10! 

最 右边 的 形式 是 我 们 所 需要 的 ， 因 为 其 指数 和 较 大 的 数 9.999lo x 10 的 指数 相同 。 因 
此 ， 第 一 步 要 将 较 小 数 的 有 效 位 右 移 ， 直 至 其 指数 和 较 大 数 的 指数 相同 。 由 于 我 们 只 能 表示 
4 位 十 进 制 数 ， 故 移 位 后 得 到 的 数 为 

0.016wn x 10 
步骤 2。 将 有 效 位 相 加 : 
9.999en 
+ 0.016wn 
10.015u 





和 为 10,015wn x 10'。 

步骤 3。 因 为 和 不 是 规格 化 的 科学 记 数 法 表示 ， 因 此 需要 调整 ; 

10.015wn x 10'= 1.0015ien xX 10° 

因此 ， 在 加 法 后 可 能 需要 对 和 移 位 ， 使 其 变 为 规格 化 形式 ， 同 时 相应 地 调整 指数 。 这 个 
例子 中 是 右 移 ， 但 如 果 一 个 数 为 正 ， 一 个 数 为 负 ， 则 和 可 能 会 有 许多 前 导 0， 从 而 需要 左 移 。 
无 论 指数 是 增加 还 是 减少 ， 都 需要 检查 上 滋 或 者 下 滋 一 一 必须 保证 指数 能 够 被 固定 位 数 的 指 
数字 段 所 表示 。 

步骤 4。 因 为 我 们 假设 有 效 位 只 有 4 位 十 进 制 (不 包括 符号 位 )， 所 以 需要 对 结果 进行 含 
人 人。 小 学 时 的 算法 规则 是 四 舍 五 人 。 如 

1.0015eox 10° 








会 人 为 4 位 的 十 进 制 数 
1.002en x 107 

因为 小 数 点 右边 第 四 位 的 数 在 5 和 9 之 间 。 注 意 ， 如 果 舍 人 有 误 ， 如 将 1 加 到 了 一 串 9 
上 ， 则 和 不 能 再 被 规格 化 ， 需 要 再 次 执行 步骤 3。 
3-14 按照 上 述 十 进 制 例子 的 计算 过 程 给 出 了 二 进 制 浮 点 加 的 算法 。 步 又 1 和 步骤 2 
与 上 例 讨论 的 类 似 : 调整 指数 较 小 的 数 的 有 效 位 ， 然 后 将 两 个 数 的 有 效 位 相 加 。 步 骤 3 对 结 
果 进 行规 格 化 ， 并 强制 检查 是 否 上 滋 或 下 溢 。 步 又 3 中 上 溢 和 下 溢 的 检查 依赖 于 操作 数 的 精 
度 。 回 忆 一 下 ,指数 全 0 保留 用 来 表示 浮 点 0， 指 数 全 1 用 以 标记 超出 正常 浮 点 数 范围 的 值 
和 情况 ( 见 3.5.8 节 的 精 解 )。 在 下 面 的 例子 中 需要 注意 ， 对 于 单 精度 ， 最 大 的 指数 为 127， 
最 小 的 指数 为 -126。 
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图 3-14 浮 点 加 法 。 正 常 的 路 径 是 只 执行 一 次 步骤 3 和 步骤 4， 但 如 果 伟人 导致 
和 未 被 规格 化 ， 则 需 重复 步骤 3 


| 例题 | 二 进 制 浮 点 加 法 . 
按照 图 3-14 中 的 算法 ， 尝 试 将 0.5ww 和 -0.4375u 用 二 进 制 相 加 。 
| 答案 | 首先 ， 看 一 下 这 两 个 数 用 规格 化 科学 记 数 法 表示 的 二 进 制 形式 ， 假 设 保持 4 位 精度 : 





OSs = st 
三 寺 ji =DIwsx20 = 1.000wo X27! 

-0.4375$m =-7/16m =-7/2tm 
=-0.011lw。 =-0.0llwX2” =-l.ll0w X27 


执行 如 下 算法 : 

步骤 1。 指 数 较 小 的 数 (-1.1lwex 2 ) 的 有 效 位 右 移 ， 直 到 其 指数 和 较 大 数 的 指数 相 
匹配 ; 

-Ow R01 
步骤 2。 将 有 效 位 相 加 : 
1.000wo X271+ (-0.111wo X27') = 0.001mwo X27 
步骤 3。 将 和 规格 化 ， 并 检查 上 涪 和 下 洲 : 
0.001wo X27!= 0.010mo X27=0.100w X23= 1.000wo X27 

127 > -4 = -126， 没 有 上 溢 和 下 溢 。( 带 偏差 的 指数 为 -4 + 127， 即 123， 其 在 最 小 的 指数 
1 和 最 大 的 指数 254 之 间 (未 保留 的 带 偏差 的 指数 ).) 
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步骤 4。 舍 人 和 : 
1.000w Xx 27 
这 个 和 正好 用 4 位 表示 ， 故 不 需要 再 做 舍 人 。 然 后 
1.000wwo X 2-*= 0.0001000w。= 0.001w。 
= 1/2m =1/16w =0.0625.n 
即 为 0.Sem 与 -0.4375e 的 和 。 二 


许多 计算 机 有 专门 的 硬件 来 实现 浮 点 操作 ， 使 其 运算 速度 尽 可 能 快 。 图 3-15 给 出 了 实 
现 浮 点 加 法 的 硬件 的 框架 结构 。 


















将 较 小 的 数 右 移 


加 法 








规格 化 





合 入 





图 3-15 实现 浮 点 加 的 算术 单元 结构 框图 。 图 3-14 从 上 而 下 每 个 步骤 对 应 到 一 个 方 框 。 首 先 ， 使 用 一 
个 小 的 ALU 将 两 个 指数 相 减 来 决定 哪个 指数 大 及 大 多 少 。 指 数 差 将 控制 三 个 多 路 选择 器 ; 从 
左 到 右 ， 选 择 出 较 大 的 指数 、 较 小 数 的 有 效 位 ， 以 及 较 大 数 的 有 效 位 。 较 小 数 的 有 效 位 右 移 ， 
通过 一 个 大 的 ALU 与 较 大 数 的 有 效 位 相 加。 规格 化 步骤 将 和 左 移 或 者 右 移 ， 同 时 增加 或 者 减 
少 指数 。 舍 人 产生 最 后 的 结果 ， 可 能 需要 再 次 规格 化 以 生成 最 终 的 结果 
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3.5.5 浮 点 乘法 


我 们 已 解释 了 浮 点 加 法 ， 下 面 介 绍 浮 点 乘法 。 首 先 ， 手 动 实现 用 科学 记 数 法 表示 的 十 进 
制 数 乘法 : 1.110enx 10" x 9.200u x 10“。 假 设 有 效 位 只 有 4 位， 指数 2 位。 
步骤 1。 与 加 法 不 同 ， 只 需 简单 地 将 操作 数 的 指数 相 加 就 可 以 计算 乘积 的 指数 : 
新 指数 =10+(-5)=5 
下 面 处 理 带 偏差 的 指数 ， 并 确保 获得 相同 的 结果 : 10+127=137, 而 -5+127= 122， 故 
新 指数 = 137 + 122 = 259 
该 结果 对 于 8 位 的 指数 字段 来 说 太 大 ， 因 此 肯定 有 地 方 出 错 了 ! 问题 出 在 偏差 上 ， 因 为 指数 
相 加 时 ， 实 际 对 偏差 也 进行 了 相 加 : 
新 指数 =(10+127)+(-5+127)=(5+2Xx127)= 259 
因此 ， 当 将 带 偏差 的 数 相 加 时 ， 为 了 得 到 正确 的 带 偏差 的 和 ， 人 必须 从 和 中 减 去 偏差: 
新 指数 =137+122- 127=259- 127=132=(5+127) 
其 中 5 就 是 我 们 刚 开 始 计算 的 实际 指数 。 
步骤 2。 下 面 将 两 个 有 效 位 相 乘 : 





io 
菇 9.200e 
0000 
0000 
2220 
9990 
1110000。 
每 个 操作 数 十 进 制 小 数 点 右边 都 有 三 位 ， 因 此 乘积 的 十 进 制 小 数 点 在 其 有 效 位 从 右边 数 第 6 
位 处 : 
10.212000e。 
假设 十 进 制 小 数 点 右边 只 可 以 保留 三 位 ， 则 乘积 为 10.212ex 105。 
步骤 3。 上 面 的 乘积 是 非 规格 化 的 ， 因 此 需要 对 其 规格 化 ; 
10.212eX105= 1.0212wen X 105 
因此 ， 在 乘法 后 ， 积 可 以 右 移 一 位 变 成 规格 化 形式 ， 同 时 指数 加 1。 此 刻 ， 还 要 检查 上 溢 和 
下 溢 。 当 两 个 操作 数 都 很 小 时 一 一 两 者 都 有 非常 大 的 负 指 数 时 ， 就 有 可 能 发 生 下 滋 。 
步骤 4。 因 为 假设 有 效 位 只 有 4 位 (不 包括 符号 )， 所 以 我 们 必须 对 结果 进行 伟人 。 
1.0212eX 105 
伟人 为 只 有 4 位 有 效 位 的 1.02liox 10"。 
步骤 5。 积 的 符号 取决 于 原始 操作 数 的 符号 。 两 号 相同 ， 符 号 为 了 




















局 





; 和 否则， 符号 为 负 。 




















+1.02lex104 
在 加 法 算法 中 ， 和 的 符号 由 有 效 位 相 加 来 决定 。 但 乘法 中 ， 积 的 符号 由 操作 数 来 决定 。 

如 图 3-16 所 示 ， 二 进 制 浮 点 数 乘法 的 步 又 和 我 们 刚 做 完 的 步骤 类 似 。 首 先 ， 通 过 将 带 
偏差 的 指数 相 加 并 减 去 一 个 偏差 ， 获 得 乘积 的 新 指数 。 然 后 ， 将 有 效 位 相 乘 ， 接 着 根据 需要 
进行 规格 化 。 指 数 的 大 小 用 来 检查 上 溢 和 下 溢 ， 然 后 对 乘积 进行 舍 人 。 当 舍 人 引起 进一步 的 
规格 化 时 ， 我 们 需要 再 次 检查 指数 的 大 小 。 最 后 ， 如 果 两 个 操作 数 的 符号 相 异 ， 就 将 符号 位 
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设 为 1( 积 为 负 ); 如 果 相 同 ， 设 为 0 ( 积 为 正 )。 











图 3-16 浮 点 乘法 。 正 常 路 径 下 步骤 3 和 步骤 4 只 执行 一 次 ， 但 如 果 舍 人 
使 积 变 为 非 规格 化 数 ， 则 需 重 复 步骤 3 





| 例题 | 二 进 制 浮 点 乘法 
按照 图 3-16 中 的 步骤 ， 试 计算 0.5。 和 -0.4375um 的 乘积 。 
| 答案 | 在 二 进 制 下 ， 本 题 将 1.000w。x 2-! 和 -1.110wx 2?2 相 乘 。 
步骤 1。 将 不 带 偏差 的 指数 相 加 : 
-1 +(-2)=-3 





或 者 , 使 用 带 偏差 的 表达 式 : 
(-1+127)+(-2+127)-127=(-1-2)+(127+127- 127)=-3+127= 124 
步骤 2。 将 有 效 位 相 乘 : 
1.000w。 
x 1.110w。 
0000 
1000 
1000 
1000 
1110000。w。 
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积 为 1.110000w。x 2 了， 但 是 只 能 保存 4 位 ， 故 为 1.110wox2”。 
步骤 3。 现 在 检查 积 以 确保 其 为 规格 化 形式 ， 然 后 检查 指数 是 否 上 滋 或 下 溢 。 上 面 的 积 
已 经 是 规格 化 的 ， 并 且 ,， 因为 127 = -3 = -126， 所 以 没有 上 混和 下 溢 。( 使 用 带 偏差 的 表 
示 ，254 = 124 = 1， 可 以 用 指数 字段 表示 。) 
步骤 4。 对 积 舍 人 没有 产生 变化 : 
1.110w X23 
步骤 5。 因 为 两 原始 操作 数 的 符号 相 异 ， 所 以 积 的 符号 为 负 。 因此， 积 为 
.IlOw X24 
为 了 进一步 检查 结果 是 否 正确 ， 可 以 将 其 转化 为 十 进 制 : 
-1.110w X27= -0.001110w。= - 0.0011w = -7/25m= -7/32um= -0.21875m 
而 0.5e 和 -0.4375u 的 积 的 确 是 -0.21875。 a 


3.5.6 LEGv8 中 的 浮 点 指令 


LEGv8 通过 以 下 指令 来 支持 IEEE 754 的 单 精 度 和 双 精 度 格式 : 

@ 浮 点 单 精度 加 (FADDS) 和 双 精 度 加 (FADDD)。 

日 浮 点 单 精度 减 (FSUBS) 和 双 精 度 减 (FSUBD)。 

@ 浮 点 单 精度 乘 (FMULS) 和 双 精 度 乘 (FMULD)。 

日 浮 点 单 精度 除 (FDIVS) 和 双 精 度 除 (FDIVD)。 

日 浮 点 单 精度 比较 (FCMPS) 和 双 精 度 比较 (FCMPD)， 条 件 码 的 解释 略 有 不 同 。 
程序 员 用 指令 B. cond 作为 基于 浮 点 数 比 较 的 分 支 指令 。 

LEGv8 中 增加 了 单独 的 浮 点 寄存 器 ，S0，S1，S2，… 用 于 单 精度 ，D0，D1，D2，… 
用 于 双 精 度 。 因 此 ， 也 有 单独 的 针对 浮 点 寄存 器 的 取 数 和 存 数 指令 : LDURS 和 STURS。 浮 
点 数据 传输 地 址 计算 的 基 址 寄存 器 仍 采用 整数 寄存 器 。 从 内 存 加 载 两 个 单 精度 数 ， 将 其 相 
加 ， 然 后 再 将 和 存 信 内存 的 LEGv8 代码 可 以 实现 为 : 


LDURS  S4，[X28,c] // Load 32-bit F.P. number into S4 
LDURS S6, [X28,a] // Load 32-bit F.P. number into S6 
FADDS S2, S$S4, S6 // S2 = S4 + S6 single precision 

STURS S2, [X28,b] // Store 32-bit F.P. number from S2 


单 精度 寄存 器 仅仅 是 双 精 度 寄存 器 的 低 半 部 分 。 

图 3-17 汇总 了 本 章 介绍 过 的 LEGv8 体系 结构 中 的 浮 点 部 分 ， 其 中 为 支持 浮 点 而 增加 的 
部 分 以 灰色 标记 。 

睛 姜 完整 的 ARMv8 指令 集 并 未 使 用 FRDDS 或 FADDD 助 记 符 ， 只 有 助 记 符 FADD， 
由 汇编 器 根据 使 用 的 是 单 精度 (S) 还 是 双 精 度 (D) 寄存 器 来 决定 选取 哪个 操作 码 。 我 们 担 
心 用 同一 个 助 记 符 表示 两 个 不 同 的 操作 码 容易 引起 歧义 ， 因 此 为 了 便于 教学 ，LEGv8 中 采用 
了 不 同 的 助 记 符 。 测 生 并 他 的 法 后 半 术 二 江 各 梁 才 入 可 要 入 x LEGv8 和 ARMYS 保持 一 致 。 











数 指令 相同 的 者 存 器 ， 还 是 增加 一 组 专用 的 学 点 寄存 器 。 阅 为 六 庆 对 不 间 要 如 
数 和 浮 点 操作 ， 所 以 使 用 不 同 的 寄存 器 仅 会 稍微 增加 程序 执行 所 需 的 指令 数 。 Se 
需要 建立 一 组 不 同 的 数据 传输 指令 用 于 在 浮 点 寄存 器 和 内 存 之 间 传 输 数据 。 

独立 的 浮 点 寄存 器 的 好 处 是 : 虽然 使 寄存 器 数目 增加 了 一 倍 ， 但 指令 格式 中 不 需要 使 用 
更 多 的 位 ; 使 用 独立 的 整数 和 浮 点 寄存 器 使 寄存 器 带宽 增加 了 一 倍 ; 可 以 为 浮 点 操作 定制 寄 
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存 器 ， 例 如 ， 一 些 计算 机 将 寄存 器 中 各 种 大 小 的 源 操 作 数 转化 为 一 种 单一 的 内 部 格式 。 
LEGV8 浮 点 操作 数 


名 称 Rs 


32 个 浮 点 寄存 器 E S1， Te LEGv8 的 单 精度 浮 点 老 存 器 (S0，S1，…，S31 ) 是 双 精 度 浮 点 寄存 器 





1D0, D1,，…，D31 ) 的 低 半 部 分 


Memory{0], 仅仅 被 数据 传输 指令 访问 。LEGv8 使 用 字 节 地 址 ， 所 以 连续 的 双 字 地 址 
2 个 存储 双 字 | Memory[8], . . .， 相差 8。 存 储 器 用 来 保存 像 数组 这 样 的 数据 结构 以 及 在 过 程 调用 中 换 出 的 
Memory[4 611 686 018 427 387 900] | 寄存 器 
































































































































































































LEGv8 浮 点 汇编 语言 
We 

FP add single TAoos 4 56 + 56 学 点 加 ( 单 精 度 ) 

FP subtract single | FSUBS 4 ,S56 2 浮 点 减 ( 单 精度 ) 

FP multiply single S 浮 点 乘 ( 单 精度 ) 

FP divide single 浮 点 除 ( 单 精度 ) 
算术 运算 PP add double 浮 点 加 ( 双 精度 ) 

FP subtract double 浮 点 减 【 双 精度 ) 

FP multiply double 浮 点 乘 ( 双 精 度 ) 

FP divide double 2 浮 点 除 ( 双 精度 ) 
条 件 分 支 FP compare single Test vs. 56 浮 点 比较 ( 单 精度 ) 

FP compare double Test D4 vs. D6 浮 点 比较 ( 双 精度 ) 

Load single FP. S1 = Memory|X23 + 100] | 32 位 数据 传 给 浮 点 寄存 器 
数据 传输 Load double FP D1 = Memory[X23 + 100] | 64 位 数据 传 给 浮 点 寄存 器 

Store single FP Memory[X23 + 100] = S1 | 32 位 数据 传 给 存储 器 

Store double FP ]| Memop[x23 + 100] = D1 | 64 位 数据 传 给 存储 器 
FADDS R 241 6 10 4 2 | FADs $2, $4, $6 
FSUBS R 241 6 14 4 2 | FsuBs Ss2, $4, $6 
FMULS R 241 6 2 4 2 | FmuLs Ss2, 54, 56 
FDIVS | Rr 241 6 6 4 2 | FDIVS $s2, $4, $6 
FADDD R 243 6 10 4 2 FADDD D2, D4, D6 
FSUBD | nr 243 | 6 14 4 六 FSUBD D2, D4, D6 
FMULD R 243 | 6 2 4 2 FMULD D2, D4, D6 
FDIVD R 243 | 6 6 4 2 FDIVD 02， 04，06 
FCMPS R 241 | 6 8 4 0 FCMPS S54, 56 
FCMPD R 243 6 8 4 0 FCMPD D4, D6 
LDURS D 100 0 4 2 LOURS S2, [X23,100] 
LDURD. D 2018 100 0 4 2 LDURD S2, [X23,100] | 
STURS D 1504_ | 100 9 4 2 STURS D2, [X23,100 
STURD D 2016 | i00 0 4 2 STURD D2, [X23,100 
字段 位 数 11 位 | 5 或 9 位 | 6 或 2 位 5 位 | 5 位 所 有 32 位 LEGv8 指 令 





图 3-17 目前 介绍 的 LEGv8 浮 点 体系 结构 。 这 些 信息 也 可 以 在 LEGv8 参考 数据 卡 的 第 2 列 找到 


| 例题 | 将 浮 点 C 程序 编译 为 LEGv8 汇编 代码 


将 华氏 温度 转 为 摄氏 温度 : 


float f2c (float fahr) 
1 
return ((5.0/9.0) 
} 


ear = 





32.0)); 


假设 浮 点 变量 fahr 用 S12 传递 ,结果 存放 在 S0 中 。 写 出 相应 的 LEGv8 汇编 代码 。 
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| 答案 | 假设 编译 器 将 三 个 浮 点 常数 放置 在 内 存 中 ， 并 且 可 以 很 容易 地 通过 寄存 器 X27 获 
得 。 前 两 条 指令 将 常数 5.0 和 9.0 载 入 浮 点 寄存 器 : 


f2es 
LDURS S16, [X27,const5] // S16 = 5.0 (5.0 in memory) 
LDURS S18, [X27,const9] // S18 = 9.0 (9.0 in memory) 


然后 相 除 得 到 分 数 5.0/9.0: 

FDIVS S16,. S16, S18 // S16 = 5.0 / 9.0 
(很 多 编译 器 在 编译 的 时 候 就 将 5.0 除 以 9.0， 并 将 单 精度 常数 5.0/9.0 存 人 内 存 ， 从 而 避免 了 
在 运行 时 做 除法 。) 下 面 载 人 常数 32.0， 然 后 将 其 从 fahr (S12) 中 减 去 : 


LDURS S18, [X27,const32] // S18 = 32.0 
FSUBS S18, Sl2, S18 1/ S18 = fahr - 32.0 


最 后 ， 我 们 将 两 个 中 间 结 果 相 乘 ， 将 乘积 放置 在 S0 中 作为 返回 结果 ， 然 后 程序 返回 


FMULS SO, S16, S18 // S0 = (5/9)*(fahr - 32.0) 
BR LR /1 return 

















下 面 ， 我 们 对 和 矩阵 进行 浮 点 操作 ,这些 代 码 在 科学 计算 程序 中 非常 常见 。 


| 例题 | 将 译 点 二 维和 矩阵 的 C 程序 编译 为 LEGv8 汇编 代码 和 

很 多 浮 点 计算 都 采用 双 精 度 。 现 做 矩阵 乘法 C = C + 4 xB， 这 通常 称 为 双 精 度 通 用 矩阵 
乘法 (Double precision, GEneral Matrix Multiply，DGEMM)。3.9 节 以 及 后 续 的 第 4、5、6 
章 中 都 将 再 次 出 现 DGEMM 的 版 本 。 假 定 4、B、C 都 是 每 个 维 庶 具 有 32 个 元 素 的 方形 和 矩阵 
(a 

void mm (double c[][]，double ar[][]， double b[][]) 

{ 








size_t 1, j, k; 
whe Fs A 


| 

| 

For (全 二 有 kK < 32r = 
c[i][j] = c[i][j] + ar[i][k] *b[k][j]; 


} 

数组 的 起 始 地 址 都 是 参数 ， 存 在 x0、X1 和 X2 中 。 假 设 整数 变量 分 别 存在 X19、X20 
和 X21 中 。 这 段 程序 的 LEGv8 汇编 代码 是 什么 ? 
| 答案 | 注意 ，c[i][j] 位 于 以 上 循环 的 最 里 层 。 因 为 循环 变量 是 k， 不 影响 cli] [j]， 因 
此 我 们 可 以 避免 在 每 次 迭代 时 载 人 和 存储 c [i] [j]。 编 译 器 将 c[i] [j] 载 人 循环 外 的 一 个 寄 
存 器 中 , 将 a[i] [k] 和 b[k] [j] 的 乘积 累加 到 这 个 寄存 器 ， 并 在 最 里 层 循环 退出 时 将 和 存 人 
c[i] [j]。 为 了 使 代码 更 为 简单 ， 我 们 使 用 汇编 语言 伪 指 令 LDI， 将 一 个 常数 载 人 一 个 寄存 器 。 

程序 体 首先 将 循环 退出 条 件 ， 即 值 32， 存 人 一 个 临时 寄存 器 中 ， 然 后 初始 化 三 个 for 循 
环 变量 : 





LDI X10，32 // X10 = 32 (row size/loop end) 

LDI X19, 0 1/! i = 0; initialize 1st for loop 
Lys D1 X20, 0 Li | 0; restart 2nd for loop 
les EDI X21, 0 //! k= 0; restart 3rd for loop 


要 计算 c [i] [j] 的 地 址 ， 首 先 要 知道 一 个 32 x 32 的 二 维和 矩阵 如 何 存储 在 内 存 中 。 正 
如 你 所 期 望 的 ， 其 布局 为 32 个 一 维 数组 ， 每 个 数组 32 个 元 素 。 因 此 ,第 一 步 跳 过 i 个 “一 
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维 矩阵 ”或 者 i 行 ， 获 得 我 们 需要 的 元 素 。 因 此 ， 我 们 将 第 一 维 的 索引 乘 以 行 的 大 小 32。 因 
为 32 是 2 的 寡 次 方 ， 所 以 可 以 用 移 位 来 代替 乘 : 

LSL XI1，X1l9,，5 .// XI 一 iT*25s(size of row of c) 
现在 加 上 第 二 维 的 索引 来 获得 所 需 行 的 第 j 个 元 素 : 

ADD X11, X11, X20 // Xl1l = i * size(row) + j 
为 了 将 这 个 和 转化 为 按 字 节 的 索引 ， 我 们 给 它 乘 上 一 个 矩阵 元 素 的 字 节 大 小 。 因 为 每 个 元 素 
都 是 双 精 度 ( 8 个 字 节 )， 我 们 可 以 用 左 移 3 位 来 代替 乘 : 

LSL X11, X11, 3 // Xll = byte offset of [1][j] 
下 面 将 这 个 和 加 上 c 的 基 址 ， 得 到 c[i] [j] 的 地 址 ， 然 后 将 双 精 度数 c[il [j] 载 人 D4 
寄存 器 中 ， 


ADD X11，X0，X11 // X11 = byte address of c[i][j] 
LDURD D4, [X11,#0] // 04 = 8 bytes of c[i]j[j] 


接着 的 5 条 指令 几乎 和 之 前 的 5 条 一 样 : 计算 双 精 度数 b[k] [j] 的 地 址 ， 然 后 将 其 载 人 。 


Lia: ESt X95 2 考 // X9 = k* 25(size of row of b) 
ADD X9, X9, X20 // XxX9 = k* size(row) + j 
LSL Xx9, x9, 3 // X9 = byte offset of [k][j] 
ADD Xx9, x2, x9 // X9 = byte address of b[k][j] 


LDURD D16, [X9,#0] // 


D16 = 8 bytes of b[k][j] 
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类 似 地 ， 下 面 的 5 条 指令 与 刚才 的 5 条 一 样 : 计算 双 精 度数 a ri] [k] 的 地 址 ， 然 后 将 其 载 人 。 
LSL x9, 
ADD xX9, x9, X21 4// 
LL oy ds 3 


X9 = i * 2s(size of row of a) 
Pow) Sk 
X9 = byte offset of [i][k] 
X9 = byte address of a[i][k] 
D18 = 8 bytes of ar[i][k] 
现在 ， 所 有 的 数据 已 经 载 人 ， 终 于 可 以 做 一 些 浮 点 操作 了 ! 我 们 将 分 别 存 在 D18 和 
D16 中 的 元 素 a 和 相 乘 ， 然 后 累加 到 D4 中 。 
FMULD D16, Di8, D16 // D16 = a[i][k] * b[kJ[j] 
FADDD D4, D4, D16 //f4=cril[j]+ari][k] * brk]rj] 
最 后 的 部 分 递增 循环 变量 kx， 如 果 索 引 值 没 到 32， 则 返回 循环 。 如 果 达 到 32， 即 达到 最 里 
层 循环 的 最 后 ， 则 将 累加 在 D4 中 的 和 存 入 c [i] [j]。 


ADDI Xx21, X21, 1 // Sk=k+1 

CMP X21，X10 /1/ test k vs. 32 

BLT 3 1/ if (k < 32) go to L3 
STURD D4, [X11,0] // = D4 


类 似 地 ， 最 后 6 条 指令 增加 中 间 和 最 外 层 循环 的 索引 变量 ， 如 果 没 到 32 则 返回 循环 ， 否 则 
退出 循环 。 


ADDI X20, X20, #1 // $j=j+1l 
CMP X20, X10 /7 test j vs 32 
B.LT L2 1/ if (j < 32) go to L2 
ADDI X19, X19, #1 // $i=i+1 
CMP X19, X10 4d Yest 1 WS 32 
if (i < 32) go to L1 


BLT Lt 1/ 





图 3-23 给 出 了 与 图 3-22 中 DGEMM 版 本 略微 不 同 的 x86 汇编 语言 代码 。 
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铺 钢 C 语言 以 及 很 多 其 他 编程 语言 使 用 上 例 中 的 数组 分 布 ， 称 为 行 优先 (row-major 


区 3 引 order)。 而 Fortran 采用 列 优先 ， 即 数组 一 列 一 列 地 存储 。 
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陋 解 ;将 整数 和 浮 点 寄存 器 分 开 的 另外 一 个 原因 是 ，20 世纪 80 年 代 的 处 理 器 还 没有 
足够 的 晶体 管 将 浮 点 单元 和 整数 单元 放 在 同一 个 芯片 上 。 因 此 ， 浮 点 单元 ， 包 括 浮 点 寄存 
嘱 ， 只 是 一 个 可 选 的 第 二 芯片 (作为 主 芯 片 的 辅助 )。 这 种 可 选 的 加 速 芯 片 称 为 协 处 理 器 
(coprocessor) 芯片 。 自 20 世纪 90 年 代 早期 起 ， 微 处 理 器 将 浮 点 单元 (以 及 其 他 功能 单元 ) 
集成 在 一 个 芯片 上 。 因 此 ， 由 加 速 器 ( accumulator) 和 磁 芯 存储 器 ( core memory) 组 成 的 协 
处 理 器 术语 已 经 过 时 了 。 

睛 狠 正如 3.4 节 提 到 的 ， 加 速 除法 比 乘法 更 有 挑战 性 。 除 了 SRT， 还 有 一 种 利用 快速 
乘法 器 的 技术 称 为 牛顿 迭代 ， 它 将 除法 变换 为 通过 寻找 函数 的 零点 来 获得 倒数 1/c， 然 后 与 
另 一 操作 数 相 乘 。 如 果 不 计 算 更 多 的 位 ， 迁 代 技术 无 法 进行 正确 的 舍 入 。TI 的 一 款 芯片 通过 
计算 倒数 更 多 有 效 位 的 方法 来 解决 这 一 问题 。 

岳 解 ; Java 在 定义 浮 点 数据 类 型 和 操作 时 遵循 了 IEEE 754 标准 ， 因 此 可 以 更 好 地 生成 
第 一 个 例子 中 的 代码 ， 将 华氏 温度 转换 为 摄氏 温度 。 

上 面 第 二 个 例子 使 用 了 多 维 数组 ，Java 中 不 能 显 式 支持 。Java 允许 在 数组 中 嵌 套 数组 ， 
但 每 个 数组 可 能 有 自己 的 长 度 ， 这 一 点 与 C 语言 对 多 维 数组 的 支持 不 同 。 与 第 2 章 中 的 例子 
类 似 ， 第 二 个 例子 的 Java 版 本 需要 大 量 的 代码 来 对 数组 边界 进行 检查 ， 包 括 在 行 访问 最 后 计 
算 新 的 长 度 。 此 外 ， 可 能 还 需要 检查 对 象 引 用 是 否 非 空 。 


3.5.7 算术 精确 性 


与 整数 可 以 精确 地 表示 最 大 数 和 最 小 数 之 间 的 所 有 数 不 同 ， 浮 | 保护 位 。 在 浮 点 数 计 算 的 
点 数 通 常 是 一 个 无 法 表示 的 数 的 近似 值 。 原 因 是 ， 即 使 在 0 和 1 | 中 间 过 程 中 ， 在 右边 多 保 
之 间 ， 实 数 就 有 无 穷 多 个 ， 而 双 精 度 浮 点 最 多 可 以 精确 表示 的 不 > 
超过 2” 个 。 我 们 能 做 的 最 好 的 就 是 给 出 最 接近 实际 数 的 浮 点 表 3 


示 。 因 此 ，IEEE 754 提供 了 几 种 舍 人 模式 来 供 程序 员 选 择 所 需 的 oe 


近似 值 。 产生 的 浮 点 结果 满足 浮 点 

全 人 听 起 来 很 简单 ， 但 精确 的 全 人 需要 硬件 在 计算 过 程 中 保持 “| 格 支 ， 以 全 得到 六 总 冤 坟 
更 多 的 有 效 位 。 在 前 面 的 例子 中 ， 中 间 结果 占有 多 少 位 并 未 提 及 ， | 他 够 下 未 的， 最 接近 的 
但 很 明显 的 是 ， 如 果 每 个 中 间 结 果 都 堆 短 成 准确 的 位 数 ， 那 么 就 没 | 各 和 下 汪 和 全 二 了 的 
有 机 会 做 舍 入 了 。 因 此 ， 在 中 间 计 算 步 骤 中 ,IEEE 754 总 是 使 右边 | 两 位 中 的 第 二 位 ， 用 于 提 
多 保留 两 位 ， 分 别称 为 保护 位 ( guard) 和 会 入 位 (round)。 下 面 用 | 高 合 入 精度 。 


一 个 十 进 制 的 例子 来 说 明 其 作用 。 


| 例题 | 使 用 保护 位 来 舍 人 - 
将 2.56ex 10" 和 2.34ien x 10? 相 加 ， 假 设 只 有 三 个 十 进 制 有 效 位 。 在 使 用 保护 位 和 舍 入 

位 ， 以 及 不 使 用 两 种 情况 下 ， 将 结果 舍 入 到 只 有 三 位 十 进 制 位 的 最 近 的 数 。 

| 答案 | 首先 将 较 小 的 数 右 移 以 对 齐 指数 ， 故 2.56mx 10" 变 为 0.0256weo x 10*。 因 为 有 了 

保护 位 和 舍 人 位 ， 所 以 对 齐 指数 时 可 以 表示 两 个 最 低 有 效 位 。 保 护 位 为 5， 舍 人 位 为 6。 

和 为 : 
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2.3400。 
+ 0.0256u 
2.3656。 
因此 ， 和 为 2.3626in x 10?。 因 为 需要 伟人 两 位 ， 所 以 以 50 为 分 水 岭 ， 值 在 0~49 之 间 时 
舍 , 在 51 一 99 之 间 时 人 。 以 三 个 有 效 位 伟人 ， 变 为 2.37mx 10?。 
若 没有 保护 位 和 舍 人 位 ， 计 算 过 程 中 丢掉 两 位 。 新 的 和 为 : 
2.34wen 
+ 0.02ien 
2.3Gen 
答案 是 2.36s x 102， 与 上 面 的 结果 相 比 最 低位 上 少 1。 = 


合 人 最 坏 的 情况 是 实际 的 数 在 两 个 浮 点 表示 的 中 间 ， 浮 点 的 精 | 最 后 位 置 单位 ， 在 实际 孝 
确 性 通常 以 有 效 位 的 低位 上 有 多 少 位 的 误差 来 衡量 。 这 种 衡量 称 为 ”| 和 表示 的 数 之 间 ， 低 有 效 
最 后 位 置 单位 (units in the last place,ulp) 9。 如 果 一 个 数 在 最 低位 上 | 全 上 误差 的 位 数 。 
少 2， 则 称 其 少 了 2 个 ulp。 在 没有 上 滋 、 下 洲 或 无 效 操作 异常 的 情 
况 下 ,IEEE 754 保证 了 计算 机 使 用 的 数 的 误差 都 在 半 个 ulp 以 内 。 

国明 尽管 上 面 的 例子 实际 只 需要 多 出 一 位 ， 但 乘法 需要 两 位 。 一 个 二 进 制 乘 积 前 面 可 
能 有 一 位 0， 因 此 ， 规 格 化 步骤 必须 将 积 左 移 一 位 ， 从 而 将 保护 位 移入 乘积 的 最 低 有 效 位 ， 
留 下 使 入 位 来 辅助 获得 乘积 的 精确 会 入 。 

IEEE 754 有 四 种 合 入 模式 : 总 是 向 上 会 入 (向 + oo)， 总 是 向 下 含 入 (向 - 呈 )， 截 断 合 
入 ， 向 最 靠近 的 偶数 含 入 。 最 后 一 种 模式 给 出 了 当 数 值 在 中 间 时 如 何 处 理 。 美 国 国家 税务 局 
(U.S. Internal Revenue Service，IRS) 也 许 为 了 自身 的 利益 ， 总 是 将 0.50 美元 向 上 含 入 。 一 
种 更 公平 的 办 法 是 : 一 半 时 间 里 使 用 向 上 含 入 ， 另 一 半 时 间 里 使 用 向 下 含 入 。IEEE 754 提出 ， 
若 这 种 中 间 情 况 的 最 后 一 位 有 效 位 是 奇数 ， 就 加 1 ; 若 为 偶数 ， 则 截 去 。 因 此 ， 这 种 方法 总 
是 将 最 低位 设 为 0， 正如 舍 入 模式 的 名 称 所 隐 含 的 。 这 种 模式 是 用 得 最 多 的 ， 而 且 是 Java 唯 
一 支持 的 模式 。 

使 用 额外 的 会 入 位 的 目的 是 让 计算 机 获得 相同 的 结果 ， 如 同 先 | 粘贴 位 : 保护 位 和 合 入 位 
以 无 穷 的 精度 计算 中 间 结 果 ， 然 后 进行 含 入 那样 。 为 了 支持 这 个 目 。| 之 外 用 于 含 入 的 位 ， 当 合 
标 并 向 最 靠近 的 偶数 合 入 ，IJEEE 754 标准 在 保护 位 和 合 入 位 之 后 还 | 从 全 训 池 有 二 本 的 全 析 
有 第 三 位 ， 只 要 会 入 位 右边 有 非 0 位， 该 位 就 被 置 1。 该 位 被 称 为 
粘贴 位 (sticky bit)， 它 使 得 计算 机 在 倒 入 时 ,能 够 看 到 0.50…00e 和 0.50…0le 的 区 别 。 

粘贴 位 可 能 被 置 1， 例 如， 在 加 法 中 较 小 数 右 移 时 。 假 设 在 前 面 的 例子 里 将 
5.0leX10" 和 2.34ienX10? 相 加 。 即 使 有 保护 位 和 舍 入 位 ， 将 0.0050 和 2.34 相 加 ， 得 到 和 
2.3450。 因 为 右边 的 位 非 零 ， 粘 贴 位 被 置 1。 假 设 没有 粘贴 位 来 记录 是 否 有 1 被 移 走 ， 我 们 
会 假设 这 个 数 等 于 2.345000…00， 然 后 向 最 靠近 的 偶数 会 入 得 到 2.34。 使 用 粘贴 位 记录 这 个 
数 是 大 于 2.345000…00 的 ， 我 们 合 入 后 会 得 到 2.35。 

六 沁 MIPS-64、PowerPC、SPARC64、AMD SSE5 和 Intel AVX 体系 结构 提供 了 一 条 单 
独 的 指令 来 对 三 个 寄存 器 执行 乘法 和 加 法 操作 : a = a+ (5Xc)。 显 然 ， 对 这 一 常用 操作 ， 该 
指令 将 获得 更 高 的 浮 点 性 能 。 同 样 重要 的 是 ,不 再 需要 两 次 会 入 一 一 乘法 后 和 加 法 后 (可 











日 或 称 最 小 精度 单位 。 一 一 译 者 注 
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能 在 分 开 的 指令 中 出 现 )， 该 乘 加 指令 只 需 在 加 法 后 执行 一 次 舍 入 。 | 混合 乘 加 : 一 条 浮 点 指令 ， 
一 次 会 入 增加 了 乘 加 的 精度 。 这 样 的 一 次 会 入 操作 称 为 混合 乘 加 | 执行 一 次 乘法 和 一 次 加 
(fused multiply add)， 已 被 加 入 修订 的 IEEE 754-2008 标准 ( 见 3.12 re 
节 )。 完 整 的 ARMv8 指令 也 提供 了 混合 乘 加 ( 见 3.8 节 )。 


3.5.8 小 结 


下 面 的 重点 再 次 强调 了 第 2 章 中 存储 程序 的 概念 ; 信息 的 含义 不 能 仅仅 通过 看 数据 位 来 
确定 ， 因 为 相同 的 位 也 可 能 代表 了 不 同 的 对 象 。 本 节 表明 ， 计 算 机 算术 是 有 限 的 ， 因 此 和 自 
然 界 的 算术 不 同 。 例 如 ，IEEE 754 的 标准 浮 点 表示 
(-1)sX ( 1+ 尾数 ) X2 (者 交 -久生 ) 

几乎 总 是 一 个 真实 实数 的 近似 。 计 算 机 系统 必须 小 心地 减少 计算 机 算术 和 真实 世界 算术 之 间 
的 差距 ， 而 程序 员 有 时 也 需要 小 心 这 种 近似 值 的 含义 。 

请 王位 模式 并 没有 内 在 的 含义 ， 它 们 可 能 代表 有 符号 整数 、 无 符号 整数 、 浮 点 数 、 指 
令 、 字 符 串 ， 等 等 。 具 体 代表 什么 ， 取 决 于 对 其 操作 的 指令 。 

计算 机 数 和 真实 世界 里 的 数 的 主要 不 同 在 于 ,计算 机 数 的 大 小 和 精度 是 有 限 的 ， 有 时 可 
能 要 计算 因 太 大 或 太 小 而 无 法 在 一 个 计算 机 字 中 表示 的 数 。 程 序 员 必须 记 住 这 些 限制 ， 并 对 
照 着 编程。 

区 本 WE 厂 漠 加 上 一 章 给 出 了 C 语言 的 存储 类 型 ( 见 2.7 节 的 硬件 /软件 接口 部 分 )。 
下 表 给 出 了 C 和 Java 的 一 些 数据 类 型 、 数 据 传输 指令 ， 以 及 第 2 章 和 本 章 出 现 的 对 那些 数 
据 类 型 进行 操作 的 指令 。 注 意 Java 省 略 了 无 符号 整数 。 



































ADD, SUB, ADDI, SUBI, ADDS,SUBS, 
Jong | 证 NOYB: ROUR» | AppIS，SUBIS，NUL,SHULH，SDIV，AND， 
2 ANDI, ORR,ORRI, EOR, EORI 
unsigned jE TuR |ADD. SUB, ADDI., SUBI, ADDS,SUBS.AD 
- bY: SUVR» | Dis, SUBIS, MUL,UMULH, UDIV ,AND， 
1ong int + ANDI, ORR, ORRI, EOR, EORL 
LOURE, ADD, SUB, ADD1, SUBI, ADDS,SUBS, 
char - STURB, ADDIS, SUBIS, MUL,SMULH, SDIV, AND, 
MOVZ, MOVK ANDI, ORR,ORRI, EOR, EORI 
LDURH, ADD, SUB, ADDI, SUBI, ADDS,SUBS, 
=- char STURH， ADDIS, SUBIS, MUL,UMULH, UDIV, AND, 
MOVZ, MOVK | ANDI, ORR,ORRI, EOR, EORI 
float float | LDURS, STURS | AFADDS, FSUBS, FMULS, FDIVS, FCMPS 
|_double double | LouRD，STUR] | FADDD, FDUBD, FMULD, FDIVD,FCMPD 








性 央 为 了 处 理 可 能 包含 NaN 的 比较 ， IEEE 754 标准 包含 了 有 序 (ordered) 和 无 
序 (unordered) 比较 。 因 此 ， 完 整 的 ARMv8 指令 集 有 很 多 种 用 于 比较 的 指令 来 支持 NaN。 
(Java 不 支持 无 序 比较 。) 

为 了 从 一 次 浮 点 操作 中 最 大 限度 地 获得 精度 位 ， 标 准 允许 一 些 数 以 未 规格 化 的 形式 
表示 。IEEE 允许 有 非 规 格 化 (denormalized) 数 (也 称 为 非 规格 化 (denorm) 或 亚 规格 化 
(subnormal))， 以 减 小 0 和 最 小 规格 化 数 之 间 的 间隙 。 这 些 非 规格 化 数 和 0 有 相同 的 指数 ， 
但 尾数 非 零 。 允 许 一 个 有 效 位 变 小 直到 0， 称 为 逐 级 下 滋 (gradual underflow)。 例 如 ， 最 小 
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的 正 的 单 精 度 规格 化 数 为 
1.0000 0000 0000 0000 0000 000wo x 27™* 
而 最 小 的 单 精 度 非 规格 化 数 为 
0.0000 0000 0000 0000 0000 001w X27-*。， 导 1.0wo X21” 

对 于 双 精 度 ， 非 规格 化 间隙 从 1.0mo X27" 到 1.0wo X27 

对 于 试图 构造 快速 浮 点 单元 的 设计 者 来 说 ， 偶 尔 出 现 的 非 规格 化 操作 数 是 一 件 令 人 头 
疼 的 事情 。 因 此 ， 许 多 计算 机 在 操作 数 为 非 规 格 化 数 时 产生 异常 ， 交 给 软件 来 完成 相应 的 操 
作 。 尽 管 软件 实现 也 可 以 完成 任务 ,但 软件 的 低 效 降低 了 非 规格 化 数 在 可 移植 浮 点 软件 中 的 
受 欢迎 程度 。 此 外 ， 如 果 程 序 员 不 期 望 得 到 非 规格 化 数 ， 那 么 他 们 所 写 的 程序 可 能 会 产生 令 
人 惊讶 的 结果 。 








3.6 ”并 行 与 计算 机 算术 : 子 字 并 行 


每 台 手 机 、 平 板 或 笔记 本 的 微 处 理 器 中 都 有 自己 的 图 形 显示 ， 因 此 ， 随 着 晶体 管 数量 的 
增加 ， 微 处 理 器 中 不 可 避免 地 要 增加 对 图 形 操作 的 支持 。 

很 多 图 形 系统 最 初 都 是 用 8 位 数据 来 表示 三 种 基本 颜色 中 的 一 种 ， 外 加 8 位 表示 像素 的 
位 置 。 电 话 会 议和 视频 游戏 中 使 用 的 扬声器 和 麦克 风 要 求 对 声音 进行 支持 。 音 频 采 样 需要 8 
位 以 上 的 精度 ,但 16 位 已 经 足够 。 

每 种 微 处 理 器 对 于 字 节 或 半 字 都 有 特殊 的 支持 ， 使 得 它们 在 内 存 中 占据 较 少 的 空间 ( 见 
2.9 节 )。 然 而 ， 在 典型 的 整数 程序 中 ， 由 于 针对 这 类 大 小 数据 的 算术 操作 出 现 频率 很 低 ， 因 
此 除了 数据 传输 之 外 ， 很 少 有 其 他 的 支持 。 体 系 结构 设计 师 发 现 ， 很 多 视频 和 音频 应 用 中 会 
对 这 类 数据 的 向 量 做 相同 的 操作 。 通 过 在 一 个 128 位 的 加 法 器 内 对 进位 链 进行 分 割 ， 处 理 器 
可 以 通过 吉明 同时 处 理 16 个 8 位 、8 个 16 位 、4 个 32 位 或 2 个 64 位 的 操作 数 。 

这 种 分 割 的 加 法 器 成 本 非常 小 , 但 是 加 速 比 非常 大 。 

因为 并 行 发 生 在 一 个 宽 字 内 部 ， 因 此 这 种 扩展 称 为 子 字 并 行 ( subword parallelism)。 也 
可 以 将 其 归 类 为 更 通用 的 名 字 ， 即 数据 级 并 行 ( data level parallelism)。 它们 也 被 称 为 向 量 或 
SIMD， 即 单 指令 多 数据 ( 见 6.6 节 )。 多 媒体 应 用 的 日 益 普及 也 造成 了 一 些 新 的 算术 指令 的 
出 现 ， 这 些 指令 支持 易于 并 行 执行 的 窗 位 宽 操作 。 

例如 ，ARMv8 增加 了 32 个 128 位 寄存 器 (V0，V1，…，V31) 和 500 多 条 机 器 语言 指 
令 来 支持 子 字 并 行 。 支 持 你 所 能 想到 的 任何 子 字数 据 类 型 : 

。 8 位 、16 位 、32 位 、64 位 和 128 位 有 符号 整数 与 无 符号 整数 。 

e 32 位 和 64 位 浮 点 数 。 

图 3-18 总 结 了 一 些 基本 的 ARMv8 SIMD 指令 ，3.8 节 将 探讨 完整 的 SIMD 体系 结构 。 
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类 型 浮 点 精 玉 
Sp DP 
Integer add 
加 喊 FP add 4 A 
Integer subtract 4 4 4 4 
FP subtract W W 
Unsigned integer multiply 4 4 - 
乘 Signed integer multiply el Wa 
FP multiply v 区 
Integer compare equal M 3 ~ 





FP compare equal 
Unsigned integer minmum_| UMIN 
Signed integer minmum 







































































最 小 值 | 中 minmum 四 V 
最 大 值 “| Unsigned integer maximum 
Signed integer maximum A a 4 
FP maximum 四 V 
Integer shift left V 
移 位 Unsigned integer shift right | USHR 3 
Signed integer shift right | SSHR v 
Bitwise AND AND V 
逻辑 运算 | Bitwise OR ORR / 
Bitwise exclusive OR EOR 党 
数据 传输 | Load register LDR FE v 
Store register W W Ea 








图 3-18 ”ARMv8 子 字 并 行 SIMD 指令 示例 。 图 3-21 将 给 出 完整 的 SIMD 指令 集合 





ARMv8 汇编 器 没有 为 不 同 的 数据 宽度 使 用 不 同 的 汇编 助 记 符 ， 而 是 对 SIMD 寄存 器 使 
用 不 同 的 后 缀 以 表示 不 同 的 宽度 ， 以 便 选 择 合适 的 机 器 语言 操作 码 。 后 级 B (byte) 表示 8 
位 操作 数 ，H ( half) 表示 16 位 操作 数 ，S ( single) 表示 32 位 操作 数 ，D ( double) 表示 64 
位 操作 数 ，Q ( quad) 表示 128 位 操作 数 。 程 序 员 会 在 寄存 器 名 称 前 面 设置 一 个 数字 ， 从 而 
为 该 数据 宽度 定制 子 字 并 行 操作 的 数量 。 因 此 ,在 V2 和 V3 寄存 器 中 的 8 位 元 素 间 执行 16 
个 并 行 整数 加 操作 ， 并 将 16 个 8 位 的 和 放 入 V1 中 可 以 写 为 : 


ADD V1.16B, V2.16B, V3.16B // 16 8-bit integer adds 


执行 4 个 并 行 的 32 位 浮 点 加 法 ， 可 以 写 为 : 
FADD V1.4S, V2.4S, V3.45S // 4 32-bit floating-point adds 


3.7 实例 : x86 中 的 流 处 理 SIMD 扩展 和 高 级 向 量 扩展 


x86 中 最 初 的 MMX (MultiMedia eXtension， 多 媒体 扩展 ) 指令 和 SSE (Streaming SIMD 
Extension， 流 处 理 SIMD 扩展 ) 指令 包含 与 ARMv8 中 类 似 的 操作 。 第 2 章 中 提 到 ，2001 年 
Intel 在 其 体系 结构 中 增加 了 144 条 指令 作为 SSE2 的 一 部 分 ， 包 括 双 精 度 浮 点 寄存 器 和 操作 ， 
包含 了 可 用 作 浮 点 操作 数 的 8 个 64 位 寄存 器 。AMD 将 寄存 器 数量 扩展 到 16 个 ， 称 为 XMM ， 
作为 AMD64 的 一 部 分 ,而 Intel 将 其 重新 定义 为 EM64T。 图 3-19 总 结 了 SSE 和 SSE2 
指令 。 








叉 算 矶 的 草 大 运算 139 








} xmm, {memixmm} | CMPISSIPS|SDIPO) 














MOVEHLITPS|PO) xmm, 
tmem} xmm} 





























图 3-19 x86 的 SSE/SSE2 浮 点 指令 。xmm 意味 着 操作 数 是 一 个 128 位 的 SSE2 寄存 器 ; {mem/ xmm1} 
表明 另 一 个 操作 数 或 者 在 内 存 中 ,或 是 一 个 SSE2 寄存 器 。 该 表 采 用 正则 表达 式 来 表示 指令 
的 变化 。 因 此 ，MOV [AU] {SS/PS/SD/PD] 实际 代表 了 8 条 指令 ， 即 MOVASS、MOVAPS、 
MOVASD、MOVAPD、MOVUSS、MOVUPS、MOVUSD 和 MOVUPD。 方 括号 [] 表示 单 选 选项 : 
A 表示 存储 器 中 对 齐 的 128 位 操作 数 ; 0 表示 存储 器 中 不 对 齐 的 128 位 操作 数 ，9 表示 传输 
128 位 操作 数 的 高 半 部 分 ; 工 表 示 传 输 128 位 操作 数 的 低 半 部 分 。 大 括号 {} 和 竖 线 | 表示 基 
本 操作 的 多 选项 : Ss 代表 标量 单 精度 ( Scalar Single precision) 浮 点 数 ， 或 一 个 128 位 SSE2 
寄存 器 中 的 一 个 32 位 操作 数 ; PS 表示 打包 单 精度 浮 点 数 ( Packed Single precision)， 或 者 
一 个 128 位 SSE2 寄存 器 中 的 4 个 32 位 操作 数 ; SD 表示 标量 双 精 度 浮 点 数 ( Double Single 
precision)， 或 一 个 128 位 寄存 器 中 的 一 个 64 位 操作 数 ; PD 表示 打包 双 精 度 浮 点 数 ( Packed 
Double precision)， 或 者 一 个 128 位 SSE2 寄存 器 中 的 2 个 64 位 操作 数 


除了 能 够 在 寄存 器 中 存放 一 个 单 精度 或 双 精 度数 之 外 ，Intel 也 允许 将 多 个 浮 点 操作 
数 打 包 在 一 个 128 位 的 SSE2 寄存 器 中 : 4 个 单 精度 或 2 个 双 精 精度 数 。 因 此 ，SSE2 的 
16 个 浮 点 寄存 器 实际 上 是 128 位 宽 。 如 果 操 作 数 在 存储 器 中 能 够 组 织 为 128 位 对 齐 的 数 
据 ， 则 128 位 的 数据 传输 可 以 使 每 条 指令 加 载 (load) 或 保存 (store) 多 个 操作 数 。 这 种 打 
包 的 浮 点 格式 由 一 种 算术 操作 支持 ， 该 操作 可 以 同时 计算 4 个 单 精度 (PS) 或 2 个 双 精度 
(PD) 数 。 

2011 年 ，Intel 通过 高 级 向 量 扩展 ( Advanced Vector eXtension，AVX) 再 次 将 寄存 器 宽 
度 加 倍 ， 现 在 称 为 YMM。 因 此 ， 一 个 单 精度 操作 现在 可 以 指定 8 个 32 位 的 浮 点 操作 或 4 个 
64 位 的 浮 点 操作 。 而 遗留 的 SSE 和 SSE2 指令 现在 可 以 对 YMM 寄存 器 的 低 128 位 进行 操 
作 。 因 此 ， 从 128 位 到 256 位 操作 ， 你 需要 在 SSE2 汇编 语言 指令 前 加 上 字母 v (表示 向 量 )， 
然后 使 用 YMM 寄存 器 名 代替 XMM 寄存 器 名 。 例如， 将 2 个 64 位 浮 点 数 相 加 的 SSE2 
指令 

addpd %xmmO,. %Xmm4 
变 为 

vaddpd %ymmO0, %ymm4 
该 指令 产生 4 个 64 位 浮 点 加 法 9。 Intel 宣布 计划 在 x86 的 后 续 版 本 中 ， 将 AVX 寄存 器 先 拓宽 
到 512 位 ， 然 后 拓宽 到 1024 位 。 

畏 也 AVX 也 在 x86 中 增加 了 三 个 地 址 的 指令 。 例 如 ，vaddpq 现在 可 以 定义 为 : 


vaddpd %ymmO，%ymml，%ymm4 CC // %ymm4 = Eymm0 + Cymml 


日 、 原 书 为 乘法 ， 笔 误 。 一 一 译 者 注 
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而 两 个 地 址 的 指令 为 : 
addpd %xmm0O，%xmm4 // %xmm4 = %xmm4 二 多 XmmO 


(与 LEGv8 不 同 ，x86 的 目的 操作 数位 于 右边 。) 三 个 地 址 可 以 减少 计算 所 需 的 寄存 器 数量 和 
指令 数量 。 


3.8 实例 : 其 他 的 ARMv8 算术 指令 

图 2-40 列 出 了 完整 ARMv8 指令 集中 的 63 条 汇编 指令 (整数 乘 、 整 数 除 ， 以 及 浮 点 操 
作 ) 和 245 条 SIMD 汇编 指令 -。 

图 2-40 也 给 出 了 18 条 浮 点 数据 传输 指令 的 机 器 语言 形式 ， 但 没有 对 应 的 汇编 语言 。 
图 3-17 列 出 了 4 条 浮 点 数据 传输 指令 的 汇编 语言 形式 。 出 现 这 种 自 相 矛 盾 的 情况 ， 是 因为 
ARMv8 汇编 器 能 根据 寄存 器 名 字 和 数据 传输 指令 的 名 字 产 生 正确 的 操作 码 。 例 如 ，ARMv8 
汇编 器 将 下 面 三 条 指令 


LDUR S1, [X23,#100] 
LDUR D1, [X23,#100] 
LDUR X1, [X23,#100] 


转化 成 下 列 LEGv8 指令 的 机 器 语言 形式 ， 


LDURS S1, [X23,#100] 
LDURD D1, [X23,#100] 
LDUR xX1, [X23,#100] 


如 早 前 的 “ 精 解 ”部 分 所 提 及 的 ， 本 书 使 用 不 同 的 汇编 语言 名 字 来 表示 不 同 的 浮 点 机 器 
语言 指令 ， 因 为 我 们 认为 保持 这 两 个 层次 一 一 对 应 的 关系 ， 可 以 减少 读者 对 于 硬件 如 何 工 作 
的 困惑 。 汇 编 器 根据 寄存 器 的 名 字 就 足以 区 分 不 同类 型 的 指令 ， 这 在 硬件 上 是 如 何 做 到 ? 很 
多 人 可 能 对 此 很 困惑 。 


3.8.1 完整 的 ARMv8 整数 和 浮 点 算术 指令 


图 3-20 给 出 了 完整 ARMv8 指令 集中 的 全 部 63 条 整数 算术 和 浮 点 指令 ， 其 中 15 条 核心 
算术 指令 加 粗 显示 ， 伪 指令 斜体 显示 。 

和 许多 其 他 的 ARMv8 指令 种 类 一 样 ， 也 有 一 种 整数 乘法 指令 版 本 ( MNEG) 能 够 提供 结 
果 的 相反 数 。4 条 乘法 指令 也 有 “long” 类 型 ， 操 作 数 是 32 位 (long) 而 不 是 64 位 (long 
long)。ARMv8 也 有 6 条 指令 ， 能够 对 3 个 long (32 位 ) 或 3 个 long long (64 位) 的 操作 
数 做 整数 乘 加 或 乘 减 。 事 实 上 ，6 条 整数 乘法 指令 只 是 乘 加 指令 的 伪 指 令 ， 其 中 一 个 操作 数 
为 零 寄 存 器 (XZR)。 这 11 条 新 的 整数 指令 加 上 ARMv8 的 核心 算术 指令 中 的 5 条 乘法 和 除 
法 ,共计 16 条 。 

和 整数 乘法 一 样 ， 浮 点 乘 也 有 一 个 版 本 ( FNMUL) 能 产生 乘积 的 相反 数 。 和 整数 条 件 比 
较 指令 ( CCMP) 一 样 ， 比 较 指令 也 有 一 个 版 本 ( FCCMP )， 当 初始 条 件 为 真 时 才 进 行 比 较 。 
为 了 人 允许 程序 员 检查 操作 数 是 否 是 非 数 (NaN)， 比 较 指 令 有 两 个 版 本 : 一 个 版 本 无 论 其 中 一 
个 操作 数 是 否 为 NaN 都 不 会 引起 异常 ( 静 比 较 ，quiet compare)， 另 一 个 当 检测 到 NaN 时 会 
引起 异常 (信号 比较 ，signaling compare)。 和 整数 乘法 一 样 ， 也 有 4 条 浮 点 乘法 指令 在 乘法 
之 后 做 加 法 或 者 减法 。ARMv8 还 有 3 条 单 操作 数 浮 点 指令 : 取 绝 对 值 、 取 负数 和 求 平方 根 。 
这 11 条 指令 和 来 自 ARMv8 算术 核心 指令 中 的 10 条 指令 使 得 指令 总 数 达 到 37 条 。 

最 大 值 和 最 小 值 浮 点 操作 也 因为 NaN 而 略微 复杂 。 有 两 条 指令 在 检测 到 有 一 个 操作 数 是 
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NaN 时 引起 陷 和 人 (trap)。 而 另外 两 条 指令 将 NaN 视 为 一 个 极 值 : 最 大 值 是 正 无 穷 ， 最 小 值 是 
负 无 穷 。ARMv8 不 仅 有 一 条 浮 点 移动 指令 能 够 在 浮 点 寄存 器 之 间或 整数 寄存 器 和 浮 点 寄存 
器 之 间 复制 数据 ， 还 有 一 条 指令 能 够 将 浮 点 常量 取 到 寄存 器 中 。 和 整数 条 件 选 择 (CSELT) 一 
样 ， 也 有 浮 点 条 件 选 择 (FCSEL)。 这 7 条 指令 使 得 算术 汇编 指令 总 数 增加 到 了 44 条 。 


















MUL | Multiply 

SMULH | Signed multiply high 
UMULH _ | Unsigned multiply high 
台数 | SDIV | Signed dvide 

荚 和 | UDIV | Unsiened dvide 
SMULL | Signed muttiply long 
UMULL | Unsigned multiply long 
MNEG__| Muitiplynegate 


MADD “|Mukiplyadd 

MSUB__ | Muktiply.subtract 
整数 SMADDL | Signed muttiplyadd long 
乘 加 |_ SMSUBL | Signed muttiply subtract long 
UMADDL | Unsigned muttiply-add long 
UMSUBL | unsigned multiply-subtract long 
FMADD | Floatingpoint fused muttiplyadd 
浮 点 FMSUB |Ploatingpoint fused muhtiplysubtract 
























































UMNEGL | Unsigned multiplynegate long 乘 加 |_FNMADD | Floating point negated fused multiply.add 

SMNEGL | Signed multiplynegate long FNMSUB | Fioating point negated fused muttiply.subtract 

FADDS | Floatingpoint add single 浮 点 数 | FMOVY Floating-point move to/from integer or FP register 

FSUBS | Floatingpoint subtract single 据 移动 | FMOVI “| Floating-point move immediate 

FMULS | Floating point muitiply single 浮 点 

SDH et a es 选择 | FCSEL |Roatngpoint conditional select 

FADDD | Floatingpoint add double FRINTA | oatingpoint round to nearest with tles to odd 
浮 点 | FSUBD Floating-point subtract double FRINTJ | Roatingpoint round using current rounding mode 
i FNMUL | Floating-point scalar multiplynegate FRINTM | Floating point round toward -infinity 











源 操 | FMULD_| Floating&point muitiply double 
作 数 )】|_FDIVD | Floating-point divide double 
FCMPS | Floatingpoint compare single (quiet) 

FCMPD | Floating point compare double (quiet) 
FCMPE | Floating-point signaling compare 
FCCMP _ | Floating-point conditional quiet compare 
FCCMPE | Floating-point conditional signaling compare 
浮 点 | FABS Floating-point scalar absolute value 
指 | FNEG | poatngpointscalarnegate 
作 数 ) | FSQRT | Floating-point scalar square root 
FMAX__| Floating point scalar maximum 
浮 点 | FMIN__| Floating point scalar minimum 浮 点 


FRINTN | Foatingpoint round to nearest with ties to even 

学 点 | FRINTP | Foatingpoint round toward +infinity 

会 入 | FRINTX | Foatingpointl exact using current rounding mode 
FRINTZ | Floatingpoint round toward 0 

FCVTAS | FP convert to signed integer, rounding to nearest odd 
FCVTAU | FP convert to unsigned integer, rounding to nearest odd 
FCVTMS | Fp convert to signed integer, rounding toward -Infinity 
FCVTMU | Fp convert to unsigned integer rounding toward dnfinity 
FCVTNS | Fp convert to signed integer rounding to nearest even 
FCVTNU | Fp convert to unsigned integer, rounding to nearest even 
FCVTPS | Fp convert to signed integer rounding toward +infinity 
FCVTPU | Fp convert to unsigned integer, rounding toward +infinity 












































































































指令 | FMAXNM | Poating point scalar maximum number 转换 FP convert to signed integer rounding toward 0 
i (NaN = -inf) FCVTZU | FP convert to unsigned integer rounding toward 0 
小 值 】 | FHINNM | Poatingpoint scalar minimum number SCVTF_| Signed integer convert to FP, current rounding mode 
(NaN = +Inf) UCVTF |unsigned integer convert to FP, current rounding mode 
图 3-20 完整 的 ARMv8 整数 和 浮 点 算术 汇编 指令 。 加 粗 显示 的 指令 是 LEGv8 的 核心 指令 ， 斜 
体 显示 的 是 伪 指令 


最 后 两 类 指令 用 于 浮 点 数 伟人 ， 以 及 在 整数 和 浮 点 数 之 间 进 行 转换 。 根 据 IEEE 754 的 
多 种 含 人 模式 ，ARMYv8 有 7 条 相应 的 指令 。 为 了 覆盖 有 符号 、 无 符号 整数 和 浮 点 数 转换 的 
所 有 组 合 以 及 不 同 的 舍 人 模式 ，ARMv8 有 12 条 数据 类 型 转换 指令 。 最 后 这 两 类 指令 使 得 算 
术 汇 编 指令 的 数量 增加 到 63 条 ， 如 图 3-20 中 所 列 。 


3.8.2 ”完整 的 ARMv8 SIMD 指令 


图 3-21 给 出 了 完整 ARMv8 指令 集中 的 所 有 245 条 SIMD 汇编 指令 。 为 了 在 一 张 表 中 列 
出 245 条 指令 ， 本 书 使 用 正则 表达 式 ， 用 一 个 表 和 人 口 项 表示 几 条 不 同 的 指令 。 图 的 标题 回顾 
了 我 们 使 用 的 三 个 正则 表达 式 。 
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图 3-21 完整 的 ARMv8 SIMD 指令 ， 使 用 向 量 以 便 与 标量 操作 数 区 分 。 为 了 以 较 小 的 篇 幅 体 


现 245 条 汇编 指令 ， 我 们 使 用 正则 表达 式 来 代表 有 效 的 组 合 。 问 号 意味 着 在 其 之 前 复 
制 0 或 1 个 字母 ， 如 F?ADD 代表 两 条 指令 ADD 和 FADD。 方 括号 表示 其 中 每 个 字母 有 
一 个 版 本 ， 如 [US] QADD 代表 两 条 指令 UQADD 和 SOaADD。 最 后 ， 花 括号 以 及 分 隔 选 
项 的 竖 线 指出 如 何 形成 指令 的 多 个 版 本 ， 如 REV{16 | 32 | 64} 代表 三 条 指令 REV16、 


REV32 和 REV64 
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很 多 SIMD 指令 提供 三 种 版 本 : 
。 wide 指 目的 操作 数 和 第 一 源 操作 数 中 元 素 的 宽度 是 第 二 源 操作 数 中 元 素 宽度 的 两 倍 。 
。 long 指 目的 操作 数 中 元 素 的 宽度 是 所 有 源 操作 数 中 元 素 宽度 的 两 倍 。 
e narrow 指 目的 操作 数 中 元 素 的 宽度 是 所 有 源 操作 数 中 元 素 宽 度 的 一 半 。 
这 三 种 选择 分 别 用 后 级 W、L、N 表示 。 类 似 于 非 SIMD 指令 ，pair 指 在 一 对 SIMD 寄 
存 器 上 进行 操作 ， 这 些 指令 使 用 后 级 P。 
处 理 narrow 型 操作 时 ， 指 令 可 以 对 128 位 SIMD 寄存 器 的 低 半 部 分 或 高 半 部 分 进行 操 
作 。 默 认 使 用 低 半 部 分 ， 后 缀 为 2 时 表示 对 SIMD 寄存 器 的 高 半 部 分 进行 操作 。 
前 缓 U、S 和 F 指 无 符号 整数 、 有 符号 整数 和 浮 点 数 。 当 元 素 只 是 普通 的 位 时 ， 没 有 后 
缀 。 有 三 条 指令 使 用 多 项 式 类 型 ， 这 些 指 令 使 用 后 级 P。 
大 多 数 SIMD 指令 都 简单 易 慌 ， 不 解 自明 ,因此 我 们 只 解释 那些 不 是 很 显而易见 的 指 
令 。SIMD 指令 不 设置 条 件 码 ， 而 是 对 向 量 进行 比较 ， 如 条 件 满足 ， 目 标 向 量 元 素 将 被 设 为 
全 1， 和 否则 设 为 0。 由 于 ARMv8 指令 集 只 有 一 半 的 比较 (HS、GE、 HI、 GT), 另外 一 半 (LS、 
LE、LO、LT) 由 程序 员 通 过 反 转 操作 数 并 使 用 互补 比较 来 完成 。 也 就 是 说 ，A<B 等 同 于 
B > A。 归 约 操作 在 单个 SIMD 寄存 器 中 的 元 素 间 ， 而 不 是 不 同 的 SIMD 寄存 器 的 元 素 之 间 
进行 ， 其 余 的 SIMD 指令 也 有 同样 的 情形 。 正 如 种 类 名 所 示 ， 这 些 指令 执行 的 是 典型 的 归 约 
操作 ， 如 求 和 、 最 小 化 和 最 大 化 。 最 后 , 查 表 指令 用 1 一 4 个 SIMD 寄存 器 查 表 。 其 他 源 操 
作 数 寄存 器 的 元 素 保 存 表 的 索引 ， 然 后 并 行 查 表 得 到 的 结果 存 人 目的 寄存 器 中 。 
有 了 上 面 对 wide 、long 、narrow 和 pair 等 概念 的 解释 ， 那 么 各 类 指令 的 描述 就 容易 理 
解 了 。 下 面 是 其 中 一 些 不 易 理 解 的 : 
。 3.5 节 的 精 解 解 释 了 乘 加 操作 如 何在 一 条 指令 里 完成 两 个 操作 ， 从 而 只 做 一 次 伟人 而 
不 是 你 所 想 的 两 次 舍 人 。ARMv8 同时 提供 两 种 选择 ， 即 融合 ( fused) 乘 加 操作 (一 
次 伟人 ) 和 链 式 (chained) 乘 加 操作 (两 次 舍 人 ) 。 

e 整数 向 量 左 移 并 插 人 指令 (SLI) 提供 了 一 种 将 两 个 不 同 向 量 的 位 进行 组 合 的 途径 。 

。 整数 向 量 右 移 并 累加 指令 ( SSRA、USRA) 在 将 结果 加 入 较 低 精度 的 累加 器 之 前 ， 以 
较 高 的 精度 进行 中 间 计 算 时 非常 有 用 。 

。 向 量 结构 体 /元素 取 数 指令 (LD1、LD2、LD3、LD4) 将 一 个 、 两 个 、 三 个 或 者 四 个 
元 素 的 结构 体 载 人 SIMD 寄存 器 。 


3.9 加 速 : 子 字 并 行 和 和 矩阵 乘法 


为 了 说 明子 字 并 行 对 性 能 的 影响 ,我 们 在 无 AVX 和 有 AVX 两 种 情况 下 ， 分 别 在 Intel 
Core i7 上 运行 相同 的 代码 。 图 3-22 给 出 了 一 个 未 优化 的 矩阵 乘 的 C 代码。 如 3.5 节 所 
述 ， 该 程序 通常 称 为 DGEMM， 表 示 双 精度 通用 矩阵 乘法 ( Double precision GEneral Matrix 
Multiply)。 从 本 书 这 一 版 起 ， 我 们 增加 了 一 个 名 为 “加 速 ”的 小 节 来 说 明 在 底层 硬件 基础 
上 使 用 适当 的 软件 将 获得 的 性 能 提升 。 这 里 的 底层 硬件 是 Intel Core i 的 Sandy Bridge。 第 
3、4、5、6 章 中 的 “加 速 ”小 节 中 , 我们 将 使 用 每 章 介绍 的 思想 来 逐步 提高 DGEMM 的 
性 能 。 

图 3-23 给 出 了 图 3-22 中 内 层 循 环 的 x86 汇编 代码 。5 条 浮 点 指令 以 v 开头 , 如 AVX 指 
令 ， 但 是 它们 使 用 XMM 寄存 器 ， 而 不 是 YMM 寄存 器 并且 它们 在 指令 名 字 里 包含 了 sd， 
代表 标量 双 精 度 。 我 们 稍 后 将 定义 子 字 并 行 指令 。 
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1. void dgemm (size_t n, double* A, double* B, double* C) 
D4 

3 for (size t i = 0; i < n; ++i) 

4. for (size t j = 0; j < n; ++j) 

5。 { 

6. double cij = C[i+j*n]; /* cij = C[i][j] */ 

Ts forlsize t k= 0; Kk <n; kt+ ) 

x cij += A[li+tk*n] * B[k+j*n]; /*cij+=A[i] [Kk]*B[k] [j]*/ 
9. Cli#j*n] = cij; /* CIi][j] = cij */ 

10 . } 

11. } 





图 3-22 ”未 经 优化 的 双 精 度 和 矩阵 乘 C 语言 代码 ， 也 称 为 双 精度 通用 矩阵 乘法 (DGEMM)。 
和 矩阵 的 维 数 通 过 参数 n 传递 ， 该 DGEMM 版 本 使 用 矩阵 Cc、A、B 的 一 维 版 ， 
并 使 用 算术 运算 而 不 是 使 用 3.5 节 中 更 为 直观 的 二 维 数组 来 获得 更 好 的 性 能 。 
注释 让 我 们 想起 这 种 更 加 直观 的 符号 


1. vmovsd (%r10),%xmmO W Load 1 element of C into %xmm0 
2,. mov %rsi ,%rcx 1/ register %rcx = %rsi 

3, xor %eax ,%eax ll register %eax = 0 

4. vmovsd (%rex),%xmml /让 Load 1 element of B into %xmml 
5. add %r9,%rcx 让 register %rcx = %rcx + %r9 

6. vmulsd (%r8,%rax.8),%xmml,%xmml // Multiply %xmml,element of A 
7. add SOx1,%rax l/l register %rax = %rax + 1 

8. cmp Weax, %edi I/ compare %eax to %edi 

9. vaddsd %xmml,%xmmO,%xmmO 1 Add %xmml, %xmmO 

10. jg 30 《dgemm+0x30> I jump if %eax > %edi 

11. add $0x1,%rll /ll register %rll = %rll + 1 

12, vmovsd %xmmO,(%r10) ll Store %xmm0 into C element 











图 3-23 图 3-22 中 未 优化 C 代码 编译 后 内 层 嵌 套 循 环 体 的 x86 汇编 代码 。 虽 然 处 理 的 
只 是 64 位 数据 ， 但 编译 器 使 用 了 AVX 版 本 的 指令 ， 而 不 是 SSE2， 因 此 每 条 
指令 可 以 使 用 三 个 地 址 而 不 是 两 个 ( 见 3.7 节 精 解 部 分 ) 


由 于 编译 器 的 开发 人 员 最 终 能 够 使 用 x86 的 AVX 指令 生成 高 质量 代码 ， 因 此 现在 我 
们 必须 使 用 C 的 内 联 特性 ， 通 过 “欺骗 ”的 方式 ， 告 诉 编译 器 如 何 生成 好 的 代码 。 图 3-24 


是 图 3-22 的 加 强 版 ， 给 出 了 Gnu C 编译 器 产生 的 AVX 代码 。 图 3-25 给 出 了 编译 时 使 
gcc-03 级 优化 选项 输出 的 x86 代码 ， 同 时 给 出 了 代码 的 注释 。 


图 3-24 第 6 行 的 声明 使 用 了 _m256d 数据 类 型 ， 以 告诉 编译 器 该 变量 将 保存 4 个 双 精 


度 浮 点 值 。 第 6 行 的 函数 _mm256_loas_pa() 使 用 AVX 指令 从 算 阵 c 中 并 行 (_pd) 














芭 


出 4 个 双 精 度 浮 点 数 到 c0 中 。 第 6 行 的 地 址 计算 c+i+j*n 表示 元 素 C[i+j*n]。 与 之 对 
称 , 第 11 行 中 的 最 后 一 步 使 用 _mm256_store_pd() 将 c0 中 的 4 个 双 精 度 浮 点 数 保存 到 
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矩阵 C 中 。 每 次 迭代 都 需要 处 理 4 个 元 素 ， 因 此 第 4 行 中 的 外 层 for 循环 的 循环 变量 i 以 4 
递增 ， 而 不 是 图 3-22 中 第 3 行 的 按 1 递增 。 








1， Winclude <x86intrin.h> 

2. void dgemm (size_t n, double* A, double* B, double* C) 

| { 

4 Fop 人 

将 for ( size t j=0; jn:jt+)1 

6 — m256d c0 = _mm256_1oad_pd(C+i+j*n); /* c0 = C[Li][j] */ 
7 for( Size t k= 0; k ni kt ) 

8 c0 = _mm256_add_pd(c0, /* cO += A[i][k]*B[k][j] */ 
9 mm256_mul_pd(_mm256_load_pd(A+i+k*n), 

10, mm256_broadcast_sd(B+k+j*n))); 

a _mm256_store_pd(C+i+j*n，c0): /* CLiJ[j] = CO */ 

1 ] 

| 











图 3-24 优化 的 DGEMM C 版 本 ， 使 用 C 语言 的 内 联 特性 生成 x86 AVX 子 字 并 行 指令 。 
图 3-25 将 给 出 编译 器 生成 的 内 存 循环 的 汇编 语言 代码 


在 循环 内 部 ， 首 先 在 第 9 行 再 次 使 用 _mm256_loas_pd() 取出 A 的 4 个 元 素 。 为 了 
将 这 些 元 素 与 B 的 一 个 元 素 相 乘 ， 第 10 行 首先 使 用 函数 _mm256_broadcast_sd(), 将 
标量 双 精度 数 的 4 个 相同 的 拷贝 一 一 在 这 种 情况 下 为 B 的 一 个 元 素 一 一 放 在 一 个 YMM 寄存 
器 中 。 然 后 ， 第 9 行使 用 _mm256_mul_pd() 并 行 乘 以 4 个 双 精 度 结果 。 最 后 ， 第 8 行 的 
_mm256_add_pd() 将 4 个 乘积 加 到 c0 的 4 个 和 上 。 

图 3-25 给 出 了 编译 器 生成 的 内 层 循环 体 的 x86 代码 。 可 以 看 到 5 条 AVX 指令 一 一 全 部 
示 并 行 从 
码 与 图 3-23 中 所 示 代 码 非常 类 似 : 都 使 用 12 条 指令 ， 整 数 指令 几乎 相同 (但 使 用 不 同 的 寄 
存 器 )， 浮 点 指令 的 不 同 之 处 仅仅 在 于 从 使 用 XMM 寄存 器 的 标量 双 精 度 ( sd) 到 使 用 YMM 
寄存 器 的 并 行 双 精 度 (Pd)。 图 3-25 第 4 行 除外 。A 中 每 个 元 素 必须 与 B 中 的 一 个 元 素 相 乘 。 
一 种 解决 方法 是 将 64 位 B 元 素 的 4 个 相同 的 拷贝 一 个 接 一 个 放 和 人 256 位 的 YMM 寄存 器 中 ， 
正如 vbroadcastsd 指令 完成 的 功能 一 样 。 

对 于 32 乘 32 的 和 矩阵， 图 3-22 中 未 优化 的 DGEMM 在 单 核 2.6GHz 的 Intel Core i7 
( Sandy Bridge) 上 运行 时 性 能 为 1.7GigaFLOPS (每 秒 浮 点 操作 次 数 )。 图 3-24 中 优化 的 代码 
性 能 为 6.4GigaFLPOS。AVX 版 本 快 3.85 倍 ， 这 和 使 用 子 字 世 笠 以 同时 进行 4 入 雪人 
得 4 倍 性 能 提升 接近 。 

了 睛 屿 如 1.6 节 中 的 精 解 所 述 ，Intel 提供 了 Turbo 模式 ， 可 以 暂时 运行 在 较 高 时 钟 频率 
下 ， 直 到 芯片 过 热 。Intel Core i7 ( Sandy Bridge) 在 Turbo 模式 下 可 从 2.6GHz 增加 到 3.3GHz。 
以 上 结果 是 在 关闭 Turbo 模式 下 获得 的 。 如 果 将 Turbo 模式 打开 ， 由 于 时 钟 频率 提高 了 3.3/2.6 
=1.27 倍 ， 未 优化 的 DGEMM 性 能 将 提升 至 2.1GFLOPS，AVX 性 能 将 提升 为 8.1GFLOPS。 
当 一 个 八 核 芯片 中 只 使 用 一 个 核 时 ，Turbo 模式 工作 得 很 好 ， 因 为 在 这 种 情况 下 ， 其 他 核 处 
于 空闲 模式 ， 因 此 单个 核 可 以 使 用 比 共 享 情况 下 更 多 的 功 耗 
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1. vmovapd (%rll).%ymmO ll Load 4 elements of C into %ymm0 
2. mov %rbx,%rcx ll register %rcx = %rbx 

3. xor %eax, %eax 1 register %eax = 0 

4. vbroadcastsd (%rax,%r8,1),%ymml //! Make 4 copies of B element 

5. add $0x8,%rax 1 register %rax = %rax + 8 

6,. vmulpd (%rex),%ymml ,%ymml 1 Parallel mul %ymml.4 A elements 
7. add %r9,%rcx ll register %rcx = %rcx + %r9g 

8. cmp %r10,%rax I compare %rl0 to %rax 

9. vaddpd %ymml,%ymm0,%ymmO 1 Parallel add %ymml, %ymmO 

10. jne 50 《dgemm+0x50> 1 jump if not %rl0 != %rax 
11，add $0x1,%esi Nregister % esi = % esi+1 

12. vmovapd %ymm0.(%rll) 1 Store %ymm0 into 4 C elements 











图 3-25 图 3-24 中 优化 的 C 代 码 编译 后 生成 的 嵌 套 循环 的 x86 汇编 代码 。 注 意 与 图 
3-23 相似 ， 主 要 区 别 在 于 5 个 浮 点 操作 现在 使 用 YMM 寄存 器 和 pd 版 本 的 指 
令 来 进行 并 行 双 精度 操作 (而 不 是 sd 版 的 标量 双 精度 ) 
3.10” 雇 误 与 陷阱 
算术 廖 误 与 陷阱 通常 是 由 计算 机 算术 的 有 限 精度 和 自然 界 算术 | 数学 可 以 被 定义 为 这 样 的 


的 无 限 精 度 之 间 的 差异 引起 的 。 学 科 : 我 们 从 不 知道 自己 
谬误 :正如 左 移 指 令 可 以 代替 乘 以 2 的 界 次 的 整数 乘法 一 样 ， | 多 党， 中 和 时 
右 移 指 令 也 可 以 代替 除 以 2 的 宕 次 方 数 的 整数 除法 。 Berirind Russell, Recent Wry 
回忆 一 下 一 个 二 进 制 数 x， 其 中 x 代表 第 1 位 ， 该 数 表示 为 pe 


“texX2) + (xX2) + xX2") + rox2°) 
将 x 布 移 n 位 看 起 来 似乎 与 被 2“ 相 除 相同 。 对 于 无 符号 整数 确实 如 此 。 问 题 出 在 有 符号 整 
数 上 。 例如， 假设 我 们 用 -Se 除 以 4m， 商 就 是 -le。 而 -Su 的 补 码 形式 是 
11111111 11111111 11111131 11131111 11111111 11171111 11111111 1111101l.w 
根据 这 个 廖 误 ， 右 移 2 位 就 是 除 以 4 ( 22 ): 
00111111 11111111 11111111 11111111 11111111 11111111 11111111 11111110;o 
由 于 符号 位 是 0， 所 以 结果 很 明显 是 错 的 。 右 移 后 的 值 实际 是 4 611 686 018 427 387 902ws 而 不 
是 -le。 
一 种 解决 办 法 是 算术 右 移 ， 即 进行 符号 位 扩展 而 不 是 移 人 0。-5um 算术 右 移 2 位 得 到 
11111111 11133111 111lilli1lllillllllllilllll1lliililllillltllllllllilll0vo 
结果 是 -2 而 不 是 -1ws， 虽然 很 接近 ， 但 依然 不 正确 。 
陷阱 : 浮 点 加 法 能 使 用 结合 律 。 
结合 律 适用 于 一 系列 二 进 制 补 码 整数 加 法 ， 即 使 在 计算 过 程 中 发 生 溢出 。 然 而 ， 因 为 浮 
点 数 是 真实 数 的 近似 表示 ， 且 计算 机 算术 精度 有 限 ， 因 此 结合 律 不 适用 于 浮 点 数 。 假 定 浮 点 
数 可 以 表示 一 个 很 大 的 值 范围 ， 当 两 个 不 同 符 号 的 大 数 与 一 个 小 数 相 加 时 就 会 发 生 问题 。 例 
如 ,对 于 c+(a+)=(c+a)+b, 假设 c=-1.3emx1085，a= 1.5wnx 10”,b=1.0， 并 且 都 是 
单 精度 数 。 
”日 原 书 为 2n， 应 为 笔 误 。 一 译 者 注 
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c+(a+b)=-1.Sen X10%+ (lS X 10% + 1.0) 
=—l1.Sieo X 10%+ (1.Swn X 10°) 
=0.0 

c+(a+b)=(-1.Sen X10+ 1.5en X10)+1.0 
=(0.0wes) + 1.0 


sig 

由 于 浮 点 数 精度 有 限 且 结果 是 实数 结果 的 近似 值 ，1.5ex 10* 远 远大 于 1.0。， 因 此 
1.$mx 108+ 1.0 仍然 是 1.5m x 10*。 这 就 是 为 什么 根据 浮 点 加 法 计算 顺序 的 不 同 ，c、a、5 的 
和 有 0.0 和 1.0 两 种 结果 ， 因 此 有 c+(a+b) 关 (c+a)+b。 所 以 浮 点 加 法 不 能 使 用 结合 律 。 

雇 误 : 适用 于 整 型 数据 类 型 的 并 行 执行 策略 ， 同 样 也 适用 于 浮 点 数据 类 型 。 

- 般 情况 下 ， 在 编写 并 行 运行 的 程序 前 先 编写 串 行 运 行 的 程序 ， 这 就 自然 会 产生 一 个 问 
题 :“ 两 个 版 本 是 否 能 得 到 相同 的 结果 ? ”如 果 答 案 是 否定 的 ， 那 么 你 可 以 推断 并 行程 序 中 有 
一 个 bug 需要 消除 。 

该 方法 假定 从 串 行 转化 为 并 行 时 ， 计 算 机 算术 不 会 影响 计算 结果 。 这 就 是 说 ， 如 果 要 将 
100 万 个 数 相 加 ， 无 论 使 用 1 个 处 理 器 还 是 使 用 1000 个 处 理 器 应 该 得 到 相同 的 结果 。 该 假定 
适用 于 二 进 制 补 码 整数 ， 因 为 整数 加 法 可 以 使 用 结合 律 。 然 而 ， 因 为 浮 点 加 法 不 能 使 用 结合 
律 ， 所 以 该 假定 不 适用 。 

在 并 行 计算 机 上 ， 这 个 廖 误 可 能 产生 更 令 人 恼火 的 问题 ， 因 为 并 行 机 上 的 操作 系统 调 
度 器 会 根据 在 并 行 计算 机 上 运行 的 其 他 程序 来 使 用 不 同 数目 的 处 理 器 。 每 次 运行 处 理 器 数 不 
同 ， 将 造成 浮 点 和 以 不 同 的 顺序 求 得 ， 即 使 相同 的 代码 、 相 同 的 输入 ， 每 次 运行 也 会 得 到 略 
微 不 同 的 答案 ， 这 将 给 那些 对 并 行 无 意识 的 程序 员 造 成 恐慌 。 

在 这 个 困境 下 ， 写 并 行 代码 并 使 用 了 浮 点 数 的 程序 员 需 要 验证 结果 是 否 可 信 ， 即 便 结果 
并 未 与 顺序 执行 的 结果 不 一 致 。 处 理 这 个 问题 的 领域 称 为 数值 分 析 ( numerical analysis)， 关 
于 该 问题 本 身 就 可 以 写 一 本 教科 书 。 这 也 是 LAPACK 和 SCALAPAK 这 样 的 数学 库 流行 的 一 
个 原因 ， 这 些 数学 库 在 顺序 和 并 行 执 行 下 都 被 验证 是 有 效 的 。 

课 误 : 只 有 理论 数学 家 才 会 关心 浮 点 精度 。 

1994 年 11 月 的 报纸 新 闻 标题 证 明了 这 个 观点 是 错误 的 ( 见 图 3-26 )。 下 面 是 标题 背后 
的 故事 。 

Pentium 用 一 种 标准 的 浮 点 除 算 法 ， 每 步 生成 多 个 商 位 ， 使 用 除数 的 若干 高 有 效 位 和 被 
除数 狂 测 下 两 个 商 位。 猜测 通过 一 个 含有 -2、-1、0、+ 1 、+ 2 的 查找 表 进 行 。 猜 测 结果 和 
除数 相 乘 ， 然 后 从 余数 中 减 去 ， 获 得 新 的 余数 。 同 不 恢复 除法 一 样 ， 如 果 前 面 的 猜测 使 得 余 
数 太 大 ,那么 在 后 续 的 执行 中 将 对 余数 进行 调整 。 

Intel 的 工程 师 认 为 80486 的 表 中 有 5 个 元 素 从 不 会 被 访问 到 ， 因 此 ， 他 们 在 Pentium 中 
优化 了 PLA， 使 得 在 这 些 情 况 下 返回 0 而 不 是 2。 但 Intel 错 了 : 虽然 前 11 位 总 是 正确 的 ， 
但 错误 会 偶尔 在 第 12 ~ 52 位 之 间 出 现 , 或 者 说 十 进 制 下 的 第 4 ~ 15 位 之 间 。 

弗吉尼亚 林 奇 伯 格 学 院 的 数学 家 托马斯 - 内 斯 里 ( Thomas Nicely) 在 1994 年 9 月 发 现 
了 这 个 bug。 在 拨打 了 Intel 技术 支持 电话 但 没有 获得 官方 回应 后 ， 他 将 自己 的 发 现 公布 在 网 
上 。 这 引发 了 商业 杂志 上 的 一 个 故事 ， 进 一 步 导 致 Intel 发 布 了 一 条 声明 。Intel 称 该 bug 为 
“毛刺 ”(glitch)， 仅 对 理论 数学 家 有 影响 ， 对 于 电子 制 表 软件 的 用 户 来 说 ， 该 错误 只 有 27000 
年 才 会 出 现 一 次 。IBM 研究 机 构 很 快 提出 反对 ,指出 电子 制 表 软 件 的 用 户 平均 每 24 天 就 能 
遇 到 一 次 这 样 的 错误 。 很 快 ，Intel 认输 了 ,并 在 12 月 21 日 发 布 了 如 下 声明 : 
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Intel 对 最 近 发 布 的 Pentium 处 理 器 的 缺陷 处 理 真诚 地 道 火 - ”Intel Inside ”标记 的 含义 
是 指 您 的 计算 机 拥有 一 蜂 在 质量 和 性 能 上 首屈一指 的 微 处 理 器 。 几 千 名 Intel 雇员 为 


了 实现 这 个 目标 而 努 
从 技术 层面 上 来 讲 ， 


力 工 作 。 但 是 ， 没 有 一 款 微 处 理 器 是 完美 的 。Intel 会 继续 相信 ， 
任何 一 个 微小 的 问题 都 有 它 的 生命 期 。 尽 管 Intel 肯定 会 对 当前 


这 版 Pentium 处 理 器 负责 到 底 ， 但 我 们 也 意识 到 了 很 多 用 户 的 担 忱 。 我 们 希望 能 够 解 


决 这 种 担忧 。 任 何 消 


费 者 在 计算 机 生命 期 的 任何 时 刻 ， 只 要 需要 ，Intel 会 免费 为 您 更 


换 新 的 Pentium 处 理 器 ， 新 版 处 理 器 中 将 不 会 再 出 现 浮 点 除法 缺陷 。 





图 3-26 1994 年 11 月 的 一 些 报纸 和 杂志 的 节选 ， 包 括 《 纽 约 时 代 光 圣何塞 信使 报 》《 旧金山 新 
闻 》《 信 息 世 界 》。Pentium 浮 点 除法 的 bug 甚至 成 为 电视 节目 “ David Letterman Late 


Show” 的 “十 


大 新 闻 ”。Intel 最 后 花 了 3 亿美 元 来 替换 掉 有 bug 的 芯片 


分 析 家 估计 这 次 召回 花费 了 Intel 5 亿美 元 ， 这 一 年 Intel 的 工程 师 没 有 拿 到 圣诞 节 奖金 。 

这 次 事件 对 每 个 人 来 说 ， 都 有 一 些 值 得 思考 的 地 方 。 如 果 在 1994 年 7 月 修复 了 这 个 
bug 会 少 花 多 少 钱 ? 修复 Intel 的 名 声 需要 多 大 的 代价 ”披露 一 个 广泛 应 用 的 并 依赖 微 处 理 器 
的 产品 中 的 漏洞 ， 其 责任 有 多 人 么 重大 ? 


3.11 本章 小 结 

在 过 去 的 几 十 年 里 ， 
性 。 在 当今 每 台 计 算 机 
754 二 进 制 浮 点 算术 。 





计算 机 算术 在 很 大 程度 上 被 标准 化 ,这 极 大 地 增强 了 程序 的 可 移植 
h 都 有 二 进 制 补 码 整数 算术 运算 ， 并且 如 果 支 持 浮 点 ， 则 提供 IEEE 


计算 机 算术 与 用 纸 和 笔 手 算 的 算术 的 不 同 之 处 在 于 ， 计 算 机 有 有 限 精度 的 约束 。 当 计算 
大 于 或 小 于 预定 义 限 制 的 数 时 ， 精 度 限制 可 能 会 导致 无 效 操作 。 这 种 异常 称 为 “上 溢 ” 或 “下 
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溢 "， 可 能 导致 异常 或 中 断 ， 类 似 于 意外 的 子 程序 调用 。 第 4 章 和 第 5 章 将 更 详细 地 讨论 异常 。 
浮 点 数 是 对 实际 数字 的 近似 ， 这 给 浮 点 算术 增加 了 挑战 性 ， 要 小 心 确保 所 选 的 计算 机 数 


矿 咎 帮 的 草 大 运 章 169 





能 最 接近 地 表示 实际 数字 。 浮 点 的 不 精确 和 有 限 的 表达 带 来 的 挑战 是 数值 分 析 领 域 的 部 分 来 
源 。 而 转向 芍 符 的 趋势 使 得 数值 分 析 再 次 活跃 在 聚光灯 下 ， 在 顺序 计算 机 上 完全 安全 的 方 
案 ， 在 并 行 计 算 机 上 必须 重新 考虑 ， 寻 找 最 快 算法 的 同时 也 要 保证 正确 的 结果 。 

数据 级 并 行 ， 特 别 是 子 字 并 行 ， 为 算术 操作 密集 型 (无 论 是 整数 或 者 浮 点 数 ) 程序 性 能 
的 提高 提供 了 一 条 简单 的 途径 。 我 们 展示 了 使 用 同时 进行 4 个 浮 点 操作 的 指令 可 以 将 矩阵 乘 
法 加 速 大 约 4 倍 。 

本 章 解 释 计算 机 算术 时 ， 更 多 地 采用 LEGv8 指令 集 进行 描述 。 容 易 混淆 的 一 点 是 本 章 
涉及 指令 和 LEGv8 芯片 中 执行 的 指令 以 及 LEGv8 汇编 器 接受 的 指令 之 间 的 关系 。 下 面 提供 
了 两 个 图 以 便 说 明 。 

图 3-27 列 出 了 本 章 和 第 2 章 中 提 到 的 LEGv8 指令 。 我 们 将 图 中 左边 的 指令 集 称 为 
LEGv8 核心 指令 。 右 边 的 指令 称 为 LEGv8 算术 核心 指令 。 


上 EGv8 核 心 指令 

































































































































































add R multiply MUL R 
subtract R signed multiply high SMULH R 
add immediate 1 unsigned multiply high UMULH R 
Subtract immediate 1 Ssigned divide SDIV R 
add and set flags ADDS R unsigned divide | _uD ly R 
Subtract and set flags SUBS R floating -point add single FADDS R 
add immediate and set flags ADDIS 1 floating -point subtract single FSUBS R 
Subtract immediate and set flags SUBIS I floating-point multiply single FMULS R 
load reglster LOUR 四 floating-point divide single HULVS R 
Store register STUR D floating-point add double FADDD R 
load signed word LDURSW 0 floatingpoint subtract double FSUBD R 
Store word STURW 0 floatingpoint multiply double FMULD R 
load half LDURH 0 floating point divide double FDIVD R 
Store half STURH D floating point compare single FCMPS R 
load byte LDURB 0 floating point compare double FCMPD R 
Store byte STURB 0 load single floating-point LDURS D 
load exclusive register LDXR 0 load double floating-point LDURD D 
Store exclusive register STXR D Store single floating-point STURS D 
move wide with zero MOVZ IM Store double floating-point STURD 0 
move wide with keep MOVK IM 

and AND R 

inclusive or ORR R 

exclusive or EOR R 

and immediate AND1 I 

inclusive or immediate ORRI 1 

exclusive or immediate EORI 1 

logical shift left LSL R 

logical shif right LSR R 

compare and branch on equal 0 C8Z CB 

compare and branch on not equal 0 CBNZ CB 

branch conditionally B.cond CB 

branch B B 

branch to register BR R 

branch with link BL B 


3-27 LEGv8 指令 集 。 本 书 集中 介绍 左 列 的 指令 。 这 些 信息 也 可 以 在 LEGv8 参考 数 
据 卡 的 第 1 列 和 第 2 列 里 找到 


JJ 和 注 了 





图 3-28 给 出 了 SPEC CPU 2006 整数 和 浮 点 基准 测试 程序 中 LEGv8 指令 的 使 用 率 。 所 
列 出 来 的 指令 至 少 占 所 有 执行 指令 的 0.2%。 













































































































FP add double FADDD | 0.0% | 10.6% 
Subtract FP subtract double FSUBD | 0.0% 村 .9% 
add immediate FP multiply double FMULD | 0.0% | 15.0% 
Subtract immediate FP divide double FDIVD | 0.0% 0.2% 
add and set flags FP add single FADDS | 0.0% 1.5% 
subtract and set flags FP subtract single FSUBS | 0.0% 1.8% 
add immediate and set flal FP multiply single FMULS | 0.0% 2.4% 
subtract immediate and set FP divide single FDIVS | 0.0% 0.2% 
flags 
load register load word to FP double LDURD | 0.0% | 17.5% 
Store register store word to FP double STURD | 0.0% 4.9% 
load half load word to FP single LDURS | 0.0% .2% 
Store half store word to FP single STURS | 0.0% 1,.1% 
1oad byte floating-point compare double | FCMPD | 0.0% | 0.6% 
store byte multiply MUL 0.0% 0.2% 
move wide with zero Shift right arithmetic ASR 0.5% 0.3% 




















move wide with keep 
and 
inclusive or 
exclusive or 
and immediate 
inclusive or immediate 
logical shift left 

logical shift right 


compare and branch on 
equal 0 





































compare and branch on not 
equal 0 


branch conditionally 
branch to register 
branch with link BL 











[1.1% | 0.2% 
| 0.7% | 0.2% 


图 3-28 SPEC CPU 2006 整数 和 浮 点 基准 测试 程序 中 LEGv8 指令 的 使 用 率 。 所 列 出 的 指令 至 
少 占 所 有 执行 指令 的 0.2%。 伪 指令 在 执行 前 已 转换 为 LEGv8 指令 ， 因 此 并 未 列 出 


注意 ， 尽 管 程序 员 和 编译 器 开发 人 员 可 能 为 了 拥有 更 多 的 选择 而 使 用 完整 的 ARMYv8 指 
令 集 ， 但 LEGv8 核心 指令 在 SPEC CPU 2006 整数 程序 中 占 主 导 地 位 ， 而 整数 核心 指令 以 及 
算术 核心 指令 在 SPEC CPU 2006 浮 点 程序 中 占 主导 地 位 ， 如 下 表 所 列 。 
























































Ss 
LEGv8 核 心 指令 98% 31% 
LEGv8 算 术 核心 指令 2% 66% 

其 余 ARMv8 指 令 | 0% | 3% 














本 书 剩余 部 分 专注 于 LEGv8 核心 指令 一 一 除了 乘法 、 除 法 以 外 的 整数 指令 集 ， 以 使 计 
算 机 设计 变 得 易于 解释 。 正 如 你 所 看 到 的 ，LEGv8 核心 包含 了 绝 大 多 数 流行 的 LEGv8 指令 。 
有 一 点 可 以 保证 的 是 ， 理 解 运行 LEGv8 核心 指令 的 计算 机 将 会 给 你 足够 的 背景 知识 去 理解 
更 为 复杂 的 计算 机 。 无 论 何 种 指令 集 及 大 小 一 一 ARMv8、ARMv7、MIPS、x86 一 一 永远 不 
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要 忘记 位 模式 没有 内 在 的 含义 。 相 同 的 位 模式 可 能 表示 带 符号 整数 、 无 符号 整数 、 浮 点 数 、 
字符 串 、 指 令 ， 等 等 。 在 存储 程序 计算 机 中 ， 对 位 模式 的 操作 决定 其 含义 。 
3.12 ”历史 观点 与 拓展 阅读 


本 节 回 湖 到 冯 . 诺 依 昌 来 纵览 计算 机 浮 点 的 历史 ， 包 括 有 争议 “| 良 币 ")， 对 于 计算 机 则 是 
的 IEEE 标准 的 令 人 惊讶 的 成 就 ， 以 及 x86 中 用 于 浮 点 的 80 位 栈 结 | “ 快 的 沟 法 慢 的 ， 印 使 
构 的 基本 原理 。 剩 余 内 容 请 参考 3.12 节 的 网 络 内 容 。 Ey 
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5 ] <3.2> 对 于 5ED4-07A4， 当 这 些 值 表示 16 位 有 符号 十 六 进 制 数 


Gresham 法 则 (“ 光 币 驱 逐 


W Kahan, 1992 


<3.2> 对 于 5ED4-07A4， 当 这 些 值 表示 16 位 元 符号 十 六 进 制 | 永远 不 要 放弃 ， 永 远 不 要 


数 时 ， 结 果 是 多 少 ? 结果 必须 使 用 十 六 进 制 表示 。 给 出 你 的 解 题 “| 放弃 永远， 永远 ， 永 


远 一 一 任何 情况 ， 无 论 大 
小 ， 无 论 责 三 一 一 永远 不 
要 放弃 。 

结果 是 多 少 ? 结果 必须 使 用 十 六 进 制 表示 。 给 出 你 的 解 题 过 程 。 | Winston Churchill， 在 哈 罗 公 学 


10 ] <3.2> 将 5ED4 转换 成 二 进 制 数 。 在 计算 机 中 使 用 基 为 16 的 | 允 帝 二，1941 


系统 (十 六 进 制 ) 表示 数值 的 吸引 力 在 哪里 ? 

<3.2> 对 于 4365-3412， 当 这 些 值 表 示 12 位 无 符号 八进制 数 时 ， 结 果 是 多 少 ?9 结果 必须 使 
进 制 表 示 。 给 出 你 的 解 题 过 程 。 

<3.2> 对 于 4365-3412， 当 这 些 值 表 示 12 位 有 符号 八进制 数 时 ， 结 果 是 多 少 ? 结果 必须 使 
进 制 表示 。 给 出 你 的 解 题 过 程 。 

<3.2> 假定 185 和 122 是 无 符号 8 位 十 进 制 整数 。 计 算 185- 122。 是 否 有 上 滋 或 下 溢 或 都 没有 ? 
<3.2> 假 定 185 和 122 是 带 符号 8 位 十 进 制 整数 且 以 “符号 - 数值 ”( 原 码 ) 形式 存放 。 
185 + 122。 是 否 有 上 溢 或 下 溢 或 都 没有 ? 

<3.2> 假 定 185 和 122 是 带 符号 8 位 十 进 制 整数 且 以 “符号 - 数值 ”( 原 码 ) 形式 存放 。 
185 - 122。 是 否 有 上 滋 或 下 滋 或 都 没有 ? 

<3.2> 假定 151 和 214 是 带 符号 8 位 十 进 制 整 数 且 以 二 进 制 补 码 形式 存放 。 使 用 饱和 算 
算 151 + 214。 结 果 必 须 使 用 十 进 制 表示 。 给 出 你 的 解 题 过 程 。 

<3.2> 假 定 151 和 214 是 带 符号 8 位 十 进 制 整数 且 以 二 进 制 补 码 形式 存放 。 使 用 侈 和 算 


计算 151 - 214。 结 果 必 须 使 用 十 进 制 表示 。 给 出 你 的 解 题 过 程 。 


<3.2> 假 定 151 和 214 是 无 符号 8 位 整数 。 使 用 饱和 算术 “计算 151 + 214。 结 果 必 须 使 用 
制 表 示 。 给 出 你 的 解 题 过 程 。 
<3.3> 使 用 和 图 3-6 中 类 似 的 表格 ,计算 八进制 无 符号 6 位 整数 62 和 12 的 乘积 ， 使 用 图 


3-3 中 描述 的 硬件 。 必 须 给 出 每 个 步骤 中 每 个 寄存 器 的 内 容 。 


<3.3> 使 用 和 图 3-6 中 类 似 的 表格 ， 计 算 十 六 进 制 无 符号 8 位 整数 62 和 12 的 乘积 ， 使 用 


图 3-5 中 描述 的 硬件 。 必 须 给 出 每 个 步骤 中 每 个 寄存 器 的 内 容 。 





<3.3> 如 果 一 个 整数 是 8 位 宽 ， 且 操作 的 每 个 步 又 需要 4 个 时 间 单位 ， 使 用 图 3-3 和 图 


3-4 的 方法 计算 执行 一 次 乘法 必需 的 时 间 。 假 定 在 步骤 la 中 ,无 论 是 否 加 了 被 乘 数 还 是 加 0， 


加 法 
如 果 
一 个 


都 要 执行 。 另 外 假设 寄存 器 已 经 被 初始 化 (只 需要 计算 执行 乘法 循环 本 身 所 需 的 时 间 )。 
是 在 硬件 中 执行 ， 对 被 乘 数 和 乘 数 的 移 位 可 以 同时 进行 。 如 果 是 在 软件 中 执行 ， 则 需要 
接 一 个 完成 。 对 每 种 情况 都 给 出 解答 。 


饱和 运算 是 指 当 运 算 结果 大 于 一 个 上 限 或 小 于 一 个 下 限时 ， 结 果 就 等 于 上 限 或 下 限 - 一 一 译 者 注 
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3.19 


3.20 


3.21 
3.22 


3.23 
3.24 
3.25 


3.26 


3.27 


3.28 


3.29 


3.30 


[10] < 3.3 > 假设 一 个 整数 为 8 位 宽 ， 且 一 个 加 法 器 需 4 个 单位 时 间 。 计 算 采 用 书 中 的 方法 
(31 个 垂直 的 加 法 器 栈 ) 执行 一 次 乘法 所 需要 的 时 间 。 

L20] <3.3> 假设 一 个 整数 为 8 位 宽 ， 且 一 个 加 法 器 需 4 个 单位 时 间 。 计 算 采用 图 3-7 中 的 方法 
执行 一 次 乘法 所 需要 的 时 间 。 

[20] <3.3 > 正如 书 中 讨论 的 ， 一 种 增强 性 能 的 办 法 是 用 一 次 移 位 和 加 来 代替 一 次 实际 的 乘 。 例 
如 ， 因 为 9x6 可 以 写成 (2x2x2+1) x6， 所 以 我 们 可 以 通过 将 6 左 移 3 次 再 加 上 6 来 计 
算 9x6。 给 出 用 移 位 和 加 /减法 来 计算 0x 33 x 0 x 55 的 最 好 方法 。 假 设 输入 都 是 8 位 无 符号 
整数 。 

[20] <3.4> 使 用 类 似 于 图 3-10 中 的 表格 ， 计 算 74 除 以 21， 使 用 图 3-8 中 描述 的 硬件 结构 。 给 
出 每 一 步 中 各 个 寄存 器 的 值 。 假 设 输入 都 是 6 位 无 符号 整数 。 

[30] <3.4> 使 用 类 似 于 图 3-10 中 的 表格 , 计算 74 除 以 21， 使 用 图 3-11 中 描述 的 硬件 结构 。 
给 出 每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 B 都 是 6 位 无 符号 整数 。 这 个 算法 使 用 一 个 和 图 
3-9 中 稍微 不 同 的 方法 。 你 可 能 会 认为 很 难 ， 做 一 次 或 两 次 试验 ， 或 者 去 网 上 寻找 办 法 使 其 
正确 工作 。( 提 示 : 一 种 可 能 的 解决 方案 是 利用 图 3-11 中 的 暗示 ， 余 数 寄 存 器 既 可 右 移 也 可 
左 移 。) 

[5 ] <3.5 > 如 果 是 二 进 制 补 码 整数 ， 则 位 模式 0x0C000000 代表 的 十 进 制 数 是 多 少 ” 如 果 是 无 
符号 整数 呢 ? 

[10 ] < 3.5 > 如 果 位 模式 0x0C000000 放 在 指令 寄存 器 中 ， 那 么 将 执行 何 种 MIPS 指令 ? 

[10] <3.5> 如 果 是 浮 点 数 ， 则 位 模式 0x0C000000 代表 的 十 进 制 数 是 多 少 ? 使 用 IEEE 754 
标准 。 
[10] <3.5 > 写 出 十 进 制 数 63.25 的 二 进 制 表示 ， 采 用 IEEE 754 单 精度 格式 。 

[ 10 ] < 3.5 > 写 出 十 进 制 数 63.25 的 二 进 制 表示 ， 采 用 IEEE 754 双 精度 格式 。 

[10 ] <3.5 > 写 出 十 进 制 数 63.25 的 二 进 制 表示 ， 采 用 IBM 单 精度 格式 存储 (基数 为 16 而 不 是 
2，7 位 指数 )。 

[20] <3.5> 写 出 -1.5625 x 10” 的 二 进 制 位 模式 ， 假 设 采用 一 种 类 似 DEC PDP-8 使 用 的 格式 
( 左 12 位 是 以 二 进 制 补 码 形式 存储 的 指数 ， 而 右 24 位 是 以 二 进 制 补 码 形式 存储 的 尾数 )。 没 
有 隐 含 1。 评 估 该 36 位 模式 同 IEEE 754 标准 的 单 精度 和 双 精 度 相 比 的 范围 和 精度 。 

[20] <3.5 > IEEE 754-2008 包含 一 种 “ 半 精 度 ”格式 ， 只 有 16 位 宽 。 最 左边 仍 为 符号 位 ， 指 
数 有 5 位 且 偏 差 为 153， 尾数 有 10 位。 假设 有 1 位 隐 含 位 。 写 出 这 种 格式 下 -1.5625 x 107 的 
二 进 制 位 模式 ， 使 用 excess-16 格式 存储 指数 。 评 估 该 16 位 浮 点 格式 同 IEEE 754 单 精度 标准 
相 比 的 范围 和 精度 。 

[20] <3.5 > 惠普 2114、2115 和 2116 采用 这 样 一 种 格式 ， 最 左边 16 位 是 以 二 进 制 补 码 形式 存 
储 的 尾数 ， 紧 接着 的 另 一 个 16 位 字段 里 ， 左 边 8 位 是 尾数 的 扩展 (使 尾数 达到 24 位 宽 )， 右 
边 8 位 表示 指数 。 然 而 ， 作 为 一 种 有 趣 的 交叉 ， 指 数 以 “符号 - 数值 ”( 原 码 ) 的 形式 存储 且 
符号 位 在 最 右 端 ! 写 出 这 种 格式 下 -1.5625 x 107 的 二 进 制 位 模式 。 没 有 隐 含 1。 评 估 该 32 
位 同 IEEE 754 单 精度 标准 相 比 的 范围 和 精度 。 

[20] <3.5> 手 算 2.6125 x 10' 和 4.150390625 x 107 的 和 ， 假设 A 和 B 以 练习 题 3.27 中 描述 的 
16 位 半 精 度 格 式 存储 。 假 设 有 1 位 保护 位 、1 位 舍 人 位 和 1 位 粘贴 位 ， 并 向 最 近 的 偶数 伟人。 
给 出 所 有 步骤。 

[30] <3.5> 手 算 -8.0546875 x 10" 和 -1.79931640625 x 107 的 积 ， 假 设 A 和 B 以 练习 题 3.27 
中 描述 的 16 位 半 精 度 格式 存储 。 假 设 有 1 位 保护 位 、1 位 伟人 位 和 1 位 粘贴 位 ， 并 向 最 近 的 
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3.35 


3.36 


3.37 


3.38 


3.39 


3.40 


3.41 
3.42 
3.43 


偶数 会 人。 给 出 所 有 步骤 。 然 而， 作为 书 中 已 经 做 过 的 例子 ， 你 可 以 以 人 们 可 读 的 格式 来 完 
成 这 个 乘法 ， 而 不 用 练习 题 3.12 到 练习 题 3.14 中 描述 的 技术 。 说 明 是 否 有 上 滋 或 者 下 溢 。 分 


别 以 


练习 题 3.27 中 的 16 位 浮 点 模式 和 十 进 制 数 写 出 你 的 答案 。 你 的 结果 精确 程度 如 何 ? 和 


用 计算 器 取得 的 结果 相 比 呢 ? 


30 


<3.5> 手 算 8.625 x 10' 除 以 -4.875 x 10"。 给 出 所 有 必要 的 步骤 。 假 设 有 1 位 保护 位 、! 


位 会 人 位 和 1 位 粘贴 位 ， 并 在 必要 时 使 用 。 以 练习 题 3.27 中 的 16 位 浮 点 格式 和 十 进 制 格式 


给 出 
20 
3.27 


最 终 的 结果 ， 并 将 该 十 进 制 结 果 和 用 计算 器 得 到 的 结果 进行 比较 。 
<3.10> 手 算 (3.984375x 104+ 3.4375x 10-0) + 1.771 x 108， 假 设 每 个 数值 都 以 练习 题 
中 描述 的 16 位 半 精 度 格式 ( 书 中 也 有 介绍 ) 存储 。 假 设 有 1 位 保护 位 、! 位 会 人 位 和 1 


位 粘贴 位 ， 并 向 最 近 的 偶数 伟人 。 给 出 所 有 步 又， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 


答案 
20 





<3.10> 手 算 3.984375 x 10" + (3.4375 x 10" + 1.771x 10)， 假 设 每 个 数值 都 以 练习 题 3.27 


中 描述 的 16 位 半 精 度 格式 ( 书 中 也 有 介绍 ) 存储 。 假 设 有 1 位 保护 位 、! 位 会 入 位 和 1 位 
粘贴 位 ， 并 向 最 近 的 偶数 合 和 信 。 给 出 所 有 步骤， 并 以 16 位 浮 点 格式 和 十 进 制 格 式 给 出 你 的 


答案 
10 


<3.10 > 根据 练习 题 3.32 和 3.33 的 结果 , (3.984375 x 101+ 3.4375 x 10-) + 1.771 x 10’= 


3.984375 x 107'+ (3.4375 x 107'+ 1.771 x 109) 是 否 成 立 ? 


30 


< 3.10> 手 算 (3.41796875 x 103 x 6.34765625 x 103) x 1.05625 x 102， 假 设 每 个 值 都 以 练 


习题 3.27 中 描述 的 16 位 半 精 度 格式 〈 书 中 也 有 介绍 ) 存储 。 假 设 有 1 位 保护 位 、1 位 伟人 位 


和 1 


位 粘贴 位 ， 并 向 最 近 的 偶数 伟人 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 


你 的 答案 。 


30 





<3.10> 手 算 3.41796875 x 103 x (6.34765625 x 103 x 1.05625 x 10")， 假设 每 个 值 都 以 练习 


题 3.27 中 描述 的 16 位 半 精 度 格式 ( 书 中 也 有 介绍 ) 存储 。 假 设 有 1 位 保护 位 、1 位 会 入 位 和 1 
位 粘贴 位 ， 并 向 最 近 的 偶数 伟人 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 
答案 。 

10 ] < 3.10 > 根据 练习 题 3.35 和 练习 题 3.36 的 结果 ,(3.41796875 x 10" x 6.34765625 x 10”) x 
1.05625 x 10?=3.41796875 x 10” x (6.34765625 x 10”x 1.05625 x 10”) 是 否 成 立 ? 


30 
3.27 


<3.10> 手 算 1.666015625 x 10" x (1.9760 x 104+ (-1.9744) x 10 )， 假 设 每 个 值 都 以 练习 题 
中 描述 的 16 位 半 精 度 格式 ( 书 中 也 有 介绍 ) 存储 。 假 设 有 1 位 保护 位 、! 位 会 入 位 和 1 


位 粘贴 位 ， 并 向 最 近 的 偶数 伟人 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 


答案 。 


30 


<3.10> 手 算 (1.666015625 x 10"x 1.9760 x 109 + (1.666015625 x 10" x (-1.9744) x 109 ， 


假设 每 个 值 都 以 练习 题 3.27 中 描述 的 16 位 半 精 度 格式 ( 书 中 也 有 介绍 ) 存储 。 假 设 有 1 位 保 
护 位 ，! 位 伟人 位 和 !1 位 粘贴 位 ， 并 向 最 近 的 偶数 伟人 - 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 
和 十 进 制 格式 给 出 你 的 答案 。 


10 


<3.10> 根 据 练习 题 338 和 练习 题 339 的 结果 , (1.666015625 x 10"x 1.9760x 109 十 


(1.666015625 x 10? x (-1.9744) x 109 = 1.666015625 x 10° x (1.9760 x 104+ (-1.9744) x 109 是 否 成 立 ? 





<3.5 > 按照 [IEEE 754 浮 点 格式 ， 写 出 -1/4 的 位 模式 。 你 能 精确 表示 -1/4 吗 ? 
<3.5> 如 果 将 -1/4 自 加 4 次 得 到 多 少 ? -1/4x4 是 多 少 ? 它们 相同 吗 ? 它们 应 该 是 多 少 ? 
<3.5> 写 出 数值 3 的 尾数 的 位 模式 ， 其 浮 点 格式 采用 二 进 制 编码 的 尾数 。 假 设 有 24 位 ， 





不 需要 规格 化 。 这 种 表达 精确 吗 ? 
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3.44 


3.45 


3.46 


3.47 


[10] < 3.5 > 写 出 数值 1/3 的 尾数 的 位 模式 ， 其 浮 点 格式 采用 BCD 编码 ( 基 为 10 ) 而 不 是 基 为 
2 的 尾数 。 假 设 有 24 位 ， 不 需要 规格 化 。 这 种 表达 精确 吗 ? 

[10] < 3.5 > 写 出 尾数 的 位 模式 ， 假 设 值 1/3 的 尾数 基 为 15 而 不 是 2。( 基 为 16 的 数 使 用 符号 
0 一 9 以 及 A 一 F。 基 为 15 的 数 使 用 0 一 9 以 及 A 一 E-) 假设 有 24 位 ， 并 且 不 需要 规格 化 。 
这 种 表达 精确 吗 ? 

[20] <3.5> 写 出 尾数 的 位 模式 ， 假 设 值 1/3 的 尾数 基 为 30 而 不 是 2。( 基 16 的 数 使 用 符号 
0 一 9 以 及 A 一 F。 基 30 的 数 使 用 0 一 9 以 及 A 一 Te) 假设 有 20 位， 并 且 不 需要 规格 化 。 
这 种 表达 精确 吗 ? 

[45 ] <3.6,3.7> 下 面 的 C 代码 实现 了 一 个 4 阶 FIR 滤波 器 ， 其 输入 为 数组 sig_in。 假设 所 有 
的 数组 元 素 为 16 位 定点 数 。 


for (i ~ 3;i< 128;i+ +) 
sig_out[i] = sig_in[i — 3] * f[0] + sig_in[i - 2] * f[1] 
ET = TF TE2] 上 -SETTT] 131: 


假设 你 要 面向 一 个 具有 SIMD 指令 集 和 128 位 寄存 器 的 处 理 器 ， 使 用 汇编 语言 对 该 代码 进 
行 优化 。 在 不 知道 指令 集 细节 的 情况 下 ， 简 要 介绍 一 下 如 何 实现 该 代码 ， 最 大 限度 地 使 用 子 
字 并 行 操作 ， 并 且 使 寄存 器 和 存储 器 间 的 数据 传输 量 最 少 。 阐 明 对 所 使 用 指令 集 的 所 有 假设 。 
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计算 机 的 五 个 经 典 部 件 


4.1 引言 


第 1 章 阐明 了 一 台 计算 机 的 性 能 由 三 个 关键 因素 决定 : 指令 数 
目 、 时 钟 周期 长 度 以 及 每 条 指令 所 需 时 钟 周期 数 ( CPI)。 第 2 章 阐 
明了 编译 器 和 指令 集体 系 结构 决定 了 一 个 程序 所 需 的 指令 数目 。 然 
而 ， 处 理 器 的 实现 方式 决定 了 时 钟 周 期 长 度 和 每 条 指令 的 时 钟 周期 数 。 
本 章 将 为 LEGv8 指令 集 的 两 种 不 同 实现 方式 分 别 建立 数据 通路 和 控制 单元 。 

本 章 解释 实现 一 个 处 理 器 所 需 的 原理 和 技术 ， 本 节 先 从 一 个 高 度 抽象 和 简化 的 概述 开 
始 。 下 一 节 建 立 数据 通路 ， 并 构建 一 个 简单 的 处 理 器 以 实现 像 LEGv8 这 样 的 指令 集 。 本 章 
的 主要 内 容 还 包括 : 一 个 更 真实 的 对 吐 绕 式 的 LEGv8 实现 ， 另 有 一 小 节 介绍 实现 更 复杂 的 
指令 集 (如 x86 ) 时 所 必要 的 相关 概念 。 

对 理解 指令 的 高 层 解释 及 其 对 程序 性 能 的 影响 感 兴趣 的 读者 ， 本 节 以 及 4.5 节 给 出 了 
流水 线 的 基本 概念 。4.10 节 介绍 了 最 近 的 趋势 ，4.11 节 描 述 了 最 新 的 Intel Core i 和 ARM 
Cortex-A53 体系 结构 。4.12 节 展 示 了 如 何 通过 指令 级 并 行将 3.9 节气 阵 乘法 的 性 能 提高 两 倍 
以 上 。 这 几 节 为 在 高 层 理解 流水 线 概念 提供 了 必要 的 背景 知识 。 


在 关键 问题 上 ， 没 有 什么 
细节 是 小 事 。 
法 周 太 语 


























257 








176 铝 子 童 





对 深入 理解 处 理 器 及 其 性 能 感 兴趣 的 读者 ，4.3 节 、4.4 节 和 4.6 节 很 有 帮助 。 对 如 何 构 
建 一 个 处 理 器 感 兴趣 的 读者 可 以 阅读 4.2 节 、4.7 节 、4.8 节 和 4.9 节 。 对 现代 硬件 设计 感 兴 
趣 的 读者 ，4.13 节 描 述 了 硬件 设计 语言 与 CAD 工具 如 何 用 以 实现 硬件 ， 以 及 如 何 使 用 硬件 
设计 语言 来 描述 一 个 流水 化 的 实现 。 这 些 内 容 对 于 理解 流水 化 硬件 如 何 执行 有 很 大 帮助 。( 本 
章 的 硬件 模型 已 经 被 作者 开源 ， 但 并 不 代表 ARM 支持 的 体系 结构 。) 


4.1.1 一 种 基本 的 LEGv8 实现 


下 面 我 们 将 要 考察 一 种 包含 LEGv8 核心 指令 集 的 一 个 子 集 的 实现 ， 
。 存储 器 访问 指令 load register unscaled (LDUR) 和 store register unscaled (STUR)。 
四 算术 逻辑 指令 RDD、SUB、RAND 、ORR。 
e 比较 为 0 分 支 (CBZ) 和 分 支 (B) 指令 ， 最 后 实现 。 
上 述 子 集 并 未 包含 所 有 的 整数 指令 (如 没有 移 位 、 乘 法 、 除 法 指令 )， 也 没有 包含 任何 浮 
点 指令 。 然 而 ， 该 子 集 足以 说 明 建 立 数 据 通路 和 控制 单元 时 的 关键 原理 。 实 现 其 他 指令 也 是 
类 似 的 。 

通过 该 实现 方式 的 学 习 ， 我 们 将 有 机 会 看 到 指令 集 如 何 决定 具体 实现 的 各 个 方面 ， 以 
及 各 种 实现 策略 如 何 影响 计算 机 的 时 钟 频 率 和 CPI。 第 1 章 介绍 的 许多 关键 的 设计 原理 ， 如 
“简单 源 于 规整 ”的 指导 思想 ， 都 将 在 实现 中 体现 出 来 。 此 外 ， 本 章 中 用 于 实现 LEGv8 子 集 
的 大 多 数 概念 与 很 多 计算 机 的 基本 构造 思想 是 一 致 的 ， 包 括 从 高 性 能 服务 器 到 通用 微 处 理 
器 ,再 到 柑 入 式 处 理 器 ， 等 等 。 


4.1.2 实现 概述 


在 第 2 章 中 ,我 们 学 习 了 LEGv8 的 核心 指令 ， 包 括 整数 算术 逻辑 指令 、 存 储 访问 指令 
以 及 分 支 指令 。 这 些 指 令 的 实现 过 程 大 致 相同 ， 而 与 具体 的 指令 类 型 无 关 。 每 条 指令 实现 的 
前 两 步 是 相同 的 ; 

1, 程序 计数 器 (PC) 指向 指令 所 在 的 存储 单元 ， 并 从 中 取出 指令 。 

2. 通过 指令 字段 的 内 容 ， 选 择 读 取 一 个 或 两 个 寄存 器 。 对 于 LDUR 和 CB2 指令 ， 只 需 
读 取 一 个 寄存 器 ， 而 其 他 大 多 数 指令 需要 读 两 个 寄存 器 。 

这 两 步 之 后 ， 为 完成 指令 而 进行 的 步 又 取决 于 具体 的 指令 类 型 。 幸 运 的 是 ， 对 三 种 指 
令 类 型 (存储 访问 、 算 术 罗 辑 、 分 支 ) 的 每 一 类 而 言 ， 其 动作 大 致 相同 ， 与 具体 指令 无 关 。 
LEGv8 指令 集 的 简洁 和 规整 使 许多 指令 的 执行 很 相似 ， 因 而 简化 了 实现 过 程 。 

例如 ， 除 无 条 件 分 支 ( 跳 转 ) 指令 外 的 所 有 指令 ， 在 读 取 寄 存 器 后 ， 都 要 使 用 算术 逮 辑 
单元 (ALU)。 存 储 访问 指令 用 ALU 计算 地 址 ， 算 术 逻 辑 指令 用 ALU 执行 操作 ， 分 支 指令 
用 ALU 与 0 进行 比较 。 在 使 用 ALU 之 后 ， 完 成 不 同 指令 所 需 的 动作 就 有 所 不 同 了 。 存 储 访 
问 指令 需要 访问 内 存 以 便 读 取 或 存储 数据 。 算 术 逻 辑 指令 或 取 数 指令 将 来 自 ALU 或 存储 器 
的 数据 写 人 寄存 器 。 最 后 ， 对 于 条 件 分 支 指令 ， 需 要 根据 比较 的 结果 决定 是 否 改变 下 一 条 指 
令 地 址 ; 如 果 不 修改 ， 则 将 PC 加 4 获得 顺序 的 下 一 条 指令 。 

图 4-1 给 出 了 一 种 LEGv8 实现 的 高 层 视图 ， 描 述 了 主要 的 功能 单元 及 其 互 连 。 尽 管 该 
图 给 出 了 处 理 器 中 主要 的 数据 流 ， 但 仍 省 略 了 指令 执行 过 程 中 的 两 个 重要 方面 。 

首先 ， 在 图 4-1 中 有 这 样 几 处 ， 进 入 某 个 单元 的 数据 来 自 两 个 不 同 的 源 。 例 如 ， 写 人 
PC 的 值 可 能 来 自 两 个 加 法 器 中 的 一 个 , 写 人 寄存 器 文件 的 数据 可 能 来 自 ALU 或 数据 存储 
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器 , 而 ALU 的 第 二 个 输入 可 能 来 自 寄存 器 或 指令 中 的 立即 数字 段 。 实 际 上 ， 这 些 数据 线 不 
能 简单 地 直接 连 在 一 起 ， 必 须 增 加 一 个 逻辑 单元 用 以 从 不 同 的 数据 来 源 中 选择 一 个 并 送 给 目 
标 单 元 。 这 种 选择 操作 通常 可 由 一 个 称 为 多 路 选择 器 ( multiplexor) 的 器 件 完成 ， 尽 管 该 单 
元 叫 数 据 选择 器 ( data selector) 可 能 更 合适 。 附 录 A 描述 了 多 路 选择 器 ， 通 过 设置 控制 信号 
选择 不 同 输入 。 控 制 信号 线 主要 根据 当前 执行 指令 中 包含 的 信息 设 定 。 
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图 4-1 LEGv8 子 集 实现 的 抽象 视图 ， 描 述 了 主要 功能 单元 及 其 互 连 。 所 有 指令 的 执行 都 开始 于 使 用 
程序 计数 器 获得 指令 在 指令 存储 器 中 的 地 址 。 取 到 指令 后 ， 指 令 所 使 用 的 寄存 器 操作 数 由 指令 
中 的 对 应 字段 决定 。 在 取 到 寄存 器 操作 数 之 后 ， 可 以 用 来 计算 存储 器 地 址 (对 于 存 取 类 指令 )， 
或 者 计算 算术 运算 结果 (对 于 整数 算术 逻辑 类 指令 )， 或 者 与 0 进行 比较 (对 于 分 支 类 指令 )。 
如 果 指 令 是 算术 逻辑 指令 ，ALU 的 结果 必须 写 回 寄 存 器 。 如 果 是 存 取 类 指令 ，ALU 的 结果 可 
作为 读 写 存储 器 的 地 址 。ALU 或 存储 器 的 结果 可 写 回 寄 存 器 文件 。 分 支 指令 需要 使 用 ALU 的 
输出 来 决定 下 一 个 指令 地 址 ， 该 地 址 可 能 来 自 ALU (在 ALU 中 将 PC 值 与 分 支 偏 移 量 相 加 )， 
也 可 能 来 自 一 个 加 法 器 (当前 PC 值 加 4)。 连 接 功 能 单元 的 粗 线 表示 总 线 ， 其 中 包含 多 个 信 
号 。 箭 头 用 来 指示 信息 流动 的 方向 。 因 为 信号 线 在 图 上 可 能 交叉 ， 所 以 如 果 交 又 信号 线 连 接 在 
-起 ， 则 在 相连 处 标记 一 个 黑 点 


图 4-1 中 省 略 的 另 一 个 方面 是 ， 有 几 个 功能 单元 的 控制 是 依赖 于 指令 类 型 的 。 例 如 ， 
load 指令 读数 据 存储 器 ， 而 store 指令 写 数 据 存储 器 。 寄 存 器 文件 只 在 取 数 指令 和 算术 逻辑 指 
令 时 写 和 人。 很 显然 ，ALU 根据 不 同 的 指令 执行 不 同 的 操作 。( 附 录 A 描述 了 ALU 的 设计 细节 。) 
类 似 于 多 路 选择 器 ， 这 些 操作 都 由 控制 信号 确定 ， 而 控制 信号 由 指令 的 某 些 字段 所 决定 。 
图 4-2 在 图 4-1 的 基础 上 在 数据 通路 中 增加 了 三 个 必需 的 多 路 选择 器 ， 以 及 主要 功能 单 
元 的 控制 信号 。 图 中 的 控制 单元 ( control unit) 以 指令 为 输入 ,决定 如 何 设置 功能 单元 和 两 
个 多 选 器 的 控制 信号 。 最 上 面 的 多 路 选择 器 ， 决 定 是 将 PC+4 还 是 将 分 支 目 标 地 址 写 人 PC， 
根据 ALU 的 Zero 输出 标志 设置 ， 该 ALU 用 以 实现 cB2 指令 的 比较 操作 。LEGv8 指令 集 的 
简单 性 和 规整 性 使 得 通过 简单 的 译 码 就 可 以 确定 如 何 生成 控制 信号 。 

本 章 剩余 部 分 将 为 图 4-2 加 入 更 多 的 细节 ， 包 括 进一步 增加 功能 单元 、 增 加 单元 间 的 互 
连 ， 以 及 增强 控制 单元 以 控制 根据 不 同 指令 类 型 产生 不 同 的 动作 。4.3 节 和 4.4 节 描述 了 一 种 
简单 的 实现 方式 ,该 方式 下 每 条 指令 使 用 一 个 较 长 的 时 钟 周期 ， 并 遵循 图 4-1 和 图 4-2 中 的 

后 单 周期 方式 。 一 译 者 注 
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一 般 形式 。 在 第 一 个 设计 中 ， 每 条 指令 在 一 个 时 钟 沿 上 开始 执行 ， 并 在 下 一 个 时 钟 沿 完成 。 

尽管 这 种 方法 易于 理解 ， 但 是 并 不 实际 ， 因 为 时 钟 周 期 必须 延长 以 满足 执行 时 间 最 长 的 
指令 。 在 实现 了 这 种 简单 计算 机 的 控制 后 ,我 们 将 会 讨论 一 种 流水 的 实现 方式 及 其 带 来 的 复 
杂 性 ， 包 括 异常 。 
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图 4-2 LEGv8 子 集 的 一 个 基本 实现 ， 包 含 了 必要 的 多 路 选择 器 和 控制 信号 。 最 上 面 的 多 路 选择 器 
(Mux) 控制 写 人 PC 的 值 (PC+4 或 分 支 目标 地 址 )， 该 多 路 选择 器 由 一 个 门 控制 ， 该 门将 ALU 
的 零 输 出 与 一 个 指示 指令 是 否 为 分 支 指令 的 信号 相 “ 与 ” 。 中 间 的 多 路 选择 器 的 输出 返回 到 寄 
存 器 文件 ， 用 来 选择 将 ALU 的 输出 (算术 逻辑 指令 时 ) 还 是 数据 存储 器 的 输出 ( 取 数 指令 时 ) 
写 人 到 寄存 器 文件 中 。 最 后 ， 最 下 面 的 多 路 选择 器 决定 ALU 的 第 二 个 输入 是 来 自 寄存 器 文件 
(算术 逻辑 指令 或 分 支 指令 时 ) 还 是 指令 中 的 偏 移 量 字段 ( 存 数 或 取 数 指令 时 )。 新 增 的 控制 信 
号 控制 ALU 应 执行 什么 样 的 操作 、 数 据 存储 器 是 读 还 是 写 ， 以 及 寄存 器 文件 是 否 写 人 等 。 控 
制 信号 在 图 中 用 灰色 线 标识 出 来 以 便 识别 











4.2 ”逻辑 设计 的 一 般 方法 


在 考虑 计算 机 的 设计 时 ， 必 须 决定 实现 计算 机 的 硬件 逻辑 如 何 运作 以 及 计算 机 如 何 运 
行 。 本 节 将 回顾 一 些 本 章 大 量 用 到 的 数字 逻辑 的 关键 思想 。 如 果 你 对 数字 录 辑 知之 甚 少 , 那 
么 在 继续 学 习 之 前 ， 阅 读 附录 A 将 有 所 帮助 。 
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数据 值 的 单元 和 存储 状态 的 单元 。 处 理 数据 值 的 单元 都 是 组 合 逻 辑 | 单元 ， 如 与 门 或 ALU。 
(combinational)， 它 们 的 输出 只 取决 于 当前 的 输入 。 输 入 相同 时 ,组 
合 逻辑 单元 产生 的 输出 也 相同 。 在 图 4-1 中 出 现 并 在 附录 A 中 详细 | 


LEGv8 实现 中 的 数据 通路 包括 两 种 不 同类 型 的 逻辑 单元 : 处 理 | 一 个 操作 


状态 单元 : 一 个 存储 单元 
讨论 的 ALU 就 是 一 种 组 合 逻 辑 单元 。 由 于 没有 内 部 存储 ， 对 于 给 定 。 | 如 寄存 器 或 存储 器 。 
的 一 组 输入 ， 总 是 产生 同样 的 输出 。 

设计 中 的 其 他 单元 不 是 组 合 逻 辑 ， 它 们 包含 状态 (state)。 如 果 一 个 单元 带 有 内 部 存储 ， 
那么 该 单元 包含 状态 ， 这 些 单元 称 为 状态 单元 (state element)。 如 果 我 们 关闭 计算 机 的 电源 ， 
那么 重启 时 通过 给 这 些 状态 单元 恢复 断 电 之 前 所 包含 的 值 ， 计 算 机 可 以 准确 地 重新 恢复 到 断 
电 前 的 状态 继续 执行 。 因 此 ， 这 些 状 态 单元 完全 描述 了 计算 机 的 状态 。 图 4-1 中 ， 指 令 存 储 
器 、 数 据 存储 器 以 及 寄存 器 都 是 状态 单元 。 

一 个 状态 单元 至 少 有 两 个 输入 和 一 个 输出 。 必 和 需 的 输入 是 待 写 入 单元 的 数据 值 ， 以 及 决 
定 何 时 写 人 的 时 钟 信号 。 状 态 单元 的 输出 提供 了 前 一 个 时 钟 信号 写 入 单元 的 数据 值 "。 例 如 ， 
逻辑 上 最 简单 的 一 种 状态 单元 是 D 触发 器 (参见 附录 A)， 它 有 两 个 输入 (一 个 数据 值 和 一 个 
时 钟 ) 和 一 个 输出 。 除 了 触发 器 ，LEGv8 的 实现 中 还 使 用 了 另外 两 类 状态 单元 : 存储 器 和 寄 
存 器 (都 已 出 现在 图 4-1 中 )。 时 钟 用 于 决定 状态 单元 何 时 被 写 和 人。 状态 单元 随时 可 读 。 

包含 状态 的 逻辑 部 件 又 被 称 为 时 序 逻 辑 ( sequential)， 因 为 它们 的 输出 由 输入 和 内 部 状 
态 共同 决定 。 例 如 ， 代 表 寄 存 器 的 功能 单元 的 输出 取决 于 所 提供 的 寄存 器 号 以 及 以 前 写 人 寄 
存 器 的 内 容 。 附 录 A 详细 论述 了 组 合 罗 辑 和 时 序 逻 辑 单元 的 操作 及 结构 。 


时 钟 策略 


时 钟 策略 ( clocking methodology) 规定 了 信号 可 以 读 出 和 写 入 的 
时 间 。 规 定 读 出 和 写 入 的 时 间 非 常 重要 ， 因 为 车 一 个 信号 在 写 人 的 同 
时 被 读 出 ， 那 么 读 出 的 值 可 能 是 之 前 的 旧 值 ， 也 可 能 是 新 写 人 的 值 ， 
甚至 是 两 者 的 混合 ! 计算 机 的 设计 中 显然 不 允许 这 种 不 确定 性 。 时 钟 
策略 即 是 为 避免 这 种 情况 而 提出 的 ， 以 确保 硬件 行为 是 可 预测 的 。 

简单 起 见 ， 我 们 假定 采用 边沿 触发 的 时 钟 (edge-triggered 
clocking) 方法 ， 即 在 时 序 逻 辑 单元 中 存储 的 所 有 值 仅 在 时 钟 边沿 更 
新 。 时 钟 边 沿 意味 着 从 低 到 高 或 从 高 到 低 的 跳 变 ( 见 图 4-3 )。 因 为 
只 有 状态 单元 能 存储 数据 值 ， 所 有 的 组 合 逻辑 都 必须 从 状态 单元 接收 输入 ， 并 将 输出 写 人 状 
态 单元 中 。 其 输入 为 前 一 个 时 钟 周期 写 人 的 数据 ， 而 输出 可 在 下 一 个 时 钟 周期 使 用 。 


信和 元 we 
i 


图 4-3 ”组合 逻辑 、 状 态 单元 和 时 钟 紧密 相关 。 在 一 个 同步 数字 系统 中 ， 时 钟 信号 决定 带 有 状态 的 单元 
何 时 将 数值 写 入 其 内 部 存储 中 。 在 有 效 的 时 钟 边沿 导致 状态 变化 之 前 ， 状 态 单元 的 输入 信号 必 
须 达 到 稳定 (也 就 是 说 ， 状 态 单元 的 值 保 持 不 变 ， 直 到 时 钟 沿 到 来 )。 本 章 假定 所 有 状态 单元 
(包括 存储 器 ) 都 是 上 升 沿 触发 的 ， 即 只 在 时 钟 上 升 沿 发 生变 化 


加 即 前 一 个 时 钟 信号 时 单元 的 输入 值 。 一 一 详 者 注 


时 钟 策略 : 用 以 确定 数据 
相对 于 时 钟 何 时 有 效 和 稳 
定 的 方法 。 





边沿 触发 的 时 钟 : 一 种 所 
有 的 状态 改变 发 生 在 时 钟 
沿 的 时 钟 机 制 。 
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图 4-3 描述 了 一 个 组 合 逻 辑 单元 及 其 周围 的 两 个 状态 单元 。 该 组 合 逻辑 在 一 个 时 钟 周期 
内 完成 操作 : 所 有 信号 在 一 个 时 钟 周 期 内 从 状态 单元 1 经 组 合 逻 辑 到 达 状态 单元 2。 信 号 到 
达 状 态 单元 2 所 需 的 时 间 决定 了 时 钟 周期 的 长 度 。 

简单 起 见 ， 当 一 个 状态 单元 在 每 个 有 效 的 时 名 边沿 都 进行 写 人 | 控制 全 号 ， 朋 来 寺 十 
时 ， 我 们 不 必 给 出 写 控制 信号 ( control signal)。 相 反 ， 若 一 个 状态 ”| 选择 器 选择 或 指导 功能 单 
单元 不 是 每 个 周期 都 进行 更 新 ， 那 么 就 需要 一 个 显 式 的 写 控制 信号 。 | 元 操作 的 信号 ;而 才 所 信 
写 控制 信和 号 和 时 名 信号 都 是 输入 信号 ， 只 有 时 钟 边沿 到 来 并 且 写 控 | 说 下 多 下 要 作 的 
制 信号 有 效 时 ， 状 态 单元 才 改 变 状态 。 

我 们 使 用 术语 有 效 (asserted) 表示 信号 为 逻辑 高 ， 无 效 ( deass- 
erted) 表示 温 辑 低 。 我 们 之 所 以 使 用 术语 “有 效 ” 和 “无 效 "， 是 因 
为 在 实现 硬件 时 ，1 有 时 表示 进 辑 高 ， 有 时 表示 介 辑 低 。 

边沿 触发 的 方法 多 许 在 一 个 时 钟 周期 内 读 出 一 个 寄存 器 的 内 容 ， 
然后 经 过 一 些 组 合 多 辑 ， 青 将 新 值 写 入 该 寄存 器 。 图 4-4 给 出 了 一 个 通用 的 例子 。 选 择 在 时 
钟 的 上 升 沿 (从 低 到 高 ) 还 是 下 降 沿 (从 高 到 低 ) 进行 写 操作 无 关 紧 要 ， 因 为 组 合 逻辑 的 输 
入 只 有 在 所 规定 的 时 钟 边 沿 才 可 能 发 生变 化 。 本 书 使 用 时 钟 上 升 沿 。 边 沿 触发 的 时 钟 策略 
下 ， 在 一 个 时 钟 周期 内 不 会 出 现 反馈 ， 图 4-4 中 的 逻辑 可 以 正确 工作 。 附 录 A 中 还 介绍 了 其 
他 的 一 些 时 序 约束 (如 建立 和 保持 时 间 ) 和 时 序 策略 。 


a 














| 有 效 : 信号 为 还 高 开 真 。 


| 无 效 : 信号 为 还 杏 低 或 假 ， 














图 4-4 一 种 边沿 触发 策略 ， 允 许 在 同一 个 时 钟 周期 内 读 写 状态 单元 而 不 会 内 竞争 而 导致 不 确定 的 数据 
值 。 当 然 ， 时 钟 周 期 必须 足够 长 ， 以 使 得 当 有 效 的 时 钟 边 沿 到 来 时 输入 已 经 稳定 。 由 于 状态 音 
元 的 改变 由 时 钟 边 沿 触发 ， 因 此 不 可 能 在 一 个 时 钟 周期 之 内 出 现 反馈 。 如 果 有 反馈 ， 这 个 设计 
就 不 能 正常 工作 。 本 章 和 下 一 章 的 设计 都 采用 边沿 触发 的 时 钟 策略 ， 结 构 与 本 图 类 似 


对 64 位 LEGv8 体系 结构 而 言 ， 几 乎 所 有 这 些 状态 和 风 辑 单元 的 输入 和 输出 都 为 64 位 ， 
因为 64 位 是 处 理 器 处 理 的 大 多 数 数据 的 宽度 。 若 某 单元 的 输入 或 输出 不 是 64 位 ， 我 们 会 特 
别 指出 。 图 示 中 用 粗 线 表示 总 线 (bus)， 其 宽度 为 | 位 以 上 的 信号 - 有 时 ， 我 们 会 把 若干 总 
线 合 起 来 构成 更 宽 的 总 线 ， 例 如 将 两 个 32 位 总 线 合成 64 位 总 线 。 在 这 种 情况 下 ， 总 线 标注 
将 给 出 相应 说 明 。 箭 头 指 明了 单元 间 数 据 流 的 方向 。 最 后 ， 用 灰色 线 表 示 控 制 信 号 ， 以 便 将 
其 与 数据 信号 区 分 开 来 ， 两 者 的 差别 将 随 本 章 的 进展 愈 趋 明 显 。 

上 有 还 有 一 种 32 位 版 本 的 ARMv8 体系 结构 ， 其 中 绝 大 多 数 数据 通路 都 是 32 位 宽 。 








4.3 ”建立 数据 通路 

设计 数据 通路 比较 合理 的 方法 是 首先 分 析 每 类 LEGv8 指令 执行 所 需要 的 主要 部 件 。 我 
们 先 来 看 看 每 条 指令 需要 哪些 数据 通路 部 件 (datapath element)， 按 上 党 层 展开 。 在 给 出 数据 
通路 部 件 的 同时 ， 我 们 也 会 指出 它们 的 控制 信号 。 我 们 将 自 底 向 上 使 用 抽象 方法 进行 解释 。 
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图 4-5a 给 出 了 我 们 需要 的 第 一 个 部 件 : 存储 程序 指令 的 存储 


单元 ， 能 够 根据 给 定 的 地 址 提供 指令 。 图 4-5b 展示 了 程序 计数 器 
(Program Counter，PC)， 第 2 章 中 已 介绍 过 PC 是 一 个 用 于 保存 当前 
指令 地 址 的 寄存 器 。 最 后 ， 需 要 一 个 加 法 器 来 增加 PC 值 ， 使 其 指 
向 下 条 指令 的 地 址 。 该 加 法 器 是 一 个 组 合 逻 辑 单 元 ， 可 以 用 附录 A 


蝇 





h 设 计 的 ALU 实现 ， 只 需 简单 将 其 中 的 控制 信号 设 为 总 是 进行 加 法 


操作 即 可 。 如 图 4-5 所 示 ， 我 们 将 给 这 样 的 ALU 加 上 “Add” 标 记 ， 




















数据 通路 部 件 : 处 理 器 中 
操作 或 保存 数据 的 部 件 。 
在 LEGV8 实现 中 ， 教 据 
通路 部 件 包括 指令 存储 
器 、 数 据 存储 路 、 寄 存 器 
文件 、ALU 和 加 法 器 。 


程序 计数 器 : 存放 下 一 条 


站 et 将 要 被 执行 指令 的 地 址 的 

以 表明 该 ALU 一 直 作 为 一 个 加 法 器 使 用 而 不 能 再 进行 其 他 ALU | 寄存 器 。 
操作 。 

Instruction 

address 

Instruction i 
Instruction 
memory 
引 指令 存储 器 b) 程序 计数 器 o) 加 法 器 


图 4-5 存储 和 访问 指令 所 需 的 两 个 状态 单元 ， 以 及 计算 下 一 条 指令 地 址 所 需 的 加 法 器 。 两 个 状态 
单元 分 别 是 指令 存储 器 和 程序 计数 器 。 因 为 数据 通路 不 需 写 指令 ， 因 此 指令 存储 器 只 提供 
读 访 问 。 因 为 指令 存储 器 是 只 读 的 ， 我 们 将 其 视 为 组 合 逻辑 ;任意 时 刻 的 输出 都 反映 了 输 
人 地 址 指向 的 内 容 ， 并 且 不 需要 读 控 制 信号 。( 在 装载 程序 时 需要 写 指令 存储 器 ， 这 一 点 实 
现 起 来 并 不 难 ， 所 以 为 了 简单 起 见 我 们 将 其 忽略 。) 程序 计数 器 是 一 个 64 位 的 寄存 器 ， 它 
在 每 个 时 钟 周 期 结束 时 都 会 被 写 人 ， 所 以 不 需要 写 控制 信号 。 加 法 器 通过 ALU 实现 , 但 


该 ALU 设置 为 总 是 将 两 个 64 位 的 输入 相 加 ， 并 输出 结果 


任何 指令 的 执行 ， 都 首先 要 从 存储 器 中 取出 指令 。 为 准备 执行 下 一 条 指令 ， 必 须 增加 程 
序 计数 器 以 使 其 指向 下 一 条 指令 ， 即 向 后 移动 4 字 节 。 图 4-6 展示 了 如 何 将 图 4-5 中 的 三 个 
部 件 组 合 起 来 形成 一 个 数据 通路 ， 能 够 取 指令 并 能 增加 PC 值 以 获得 顺序 下 一 条 指令 的 地 址 。 


PC 











图 4-6 用 于 取 指 和 增加 程序 计数 器 的 数据 通路 部 分 。 取 出 的 指令 供 数据 通路 的 其 他 部 分 使 用 


现在 讨论 R 型 指令 (参见 图 2-21 )。 这 类 指令 读 两 个 寄存 器 并 对 这 两 个 寄存 器 的 内 容 执 
行 ALU 操作 ， 然 后 将 结果 写 回 寄存 器 - 我 们 称 这 类 指令 为 R 型 指令 或 算术 逻辑 指令 (因为 
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[263] 它们 执行 算术 或 逻辑 操作 )。 这 类 指令 包括 第 2 章 介绍 的 ADD、SUB、AND、ORR 指令 。ADD 
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X1,X2,X3 是 此 类 指令 的 一 个 典型 例子 ， 读 取 X2 和 X3， 并 将 结果 写 人 X1。 

处 理 器 的 32 个 通用 寄存 器 位 于 一 个 叫 作 寄 存 器 文件 ( register en 
file) 的 结构 中 。 寄 存 器 文件 即 寄存 器 集合 ， 通 过 指定 相应 的 寄存 器 寄存 器 的 状态 单元 ， 可 以 
号 来 读 写 具体 的 寄存 器 。 寄 存 器 文件 包含 了 计算 机 的 寄存 器 状态 。 | 通过 提供 的 寄存 器 号 进行 
另外 ， 还 需要 一 个 ALU 来 对 从 寄存 器 读 出 的 数值 进行 操作 。 读 写 访问 。 

由 于 R 型 指令 有 3 个 寄存 器 操作 数 ， 因 此 每 条 指令 都 要 从 寄存 
器 文件 中 读 出 两 个 数据 字 ， 再 写 和 一 个 数据 字 。 要 从 寄存 器 中 读 出 一 个 数据 字 ， 需 要 给 寄存 
器 文件 一 个 输入 ， 以 指明 所 要 读 的 寄存 器 号 ， 并 且 寄 存 器 文件 将 产生 一 个 输出 ， 包 含 从 寄存 
器 文件 读 出 的 值 。 写 人 一 个 数据 字 时 ， 需 要 给 寄存 器 文件 提供 两 个 输入 : 一 个 指明 要 写 的 
寄存 器 号 ， 另 一 个 提供 要 写 的 数据 。 寄 存 器 文件 总 是 根据 输入 的 寄存 器 号 输出 相应 的 寄存 器 
内 容 ， 而 写 操作 由 写 控制 信号 控制 ， 使 写 操作 在 时 钟 边沿 产生 。 如 图 4-7a 所 示 ， 一 共 需 要 
4 个 输入 (3 个 寄存 器 号 和 1 个 数据 ) 和 2 个 输出 (2 个 数据 )。 输 入 的 寄存 器 号 为 5 位， 可 
指定 32 (32=2: ) 个 寄存 器 中 的 某 一 个 ， 而 一 条 数据 输入 总 线 和 两 条 数据 输出 总 线 宽度 均 为 
64 位 。 

图 4-7b 所 示 为 ALU， 该 ALU 有 两 个 64 位 输入 ， 产 生 一 个 64 位 结果 ,并 有 1 位 信号 
指明 结果 是 否 为 0。ALU 的 4 位 控制 信号 在 附录 A 中 有 详细 的 描述 。 在 需要 了 解 如 何 设置 
ALU 控制 信号 时 ， 我 们 将 进行 简要 的 回顾 。 


ALU operation 





Register 
numbers 


oaa { 
a) 寄存 器 文件 b)ALU 

4-7 实现 R 型 指令 ALU 操作 所 需 的 两 个 单元 一 一 寄存 器 文件 和 ALU。 寄 存 器 文件 包括 了 所 
有 的 寄存 器 ， 有 两 个 读 端口 和 一 个 写 端口 。 多 端口 寄存 器 文件 的 设计 在 附录 A 的 A.8 节 
讨论 。 寄 存 器 文件 的 读 输出 总 是 对 应 于 读 寄 存 器 号 ， 不 需要 其 他 的 控制 信号 。 但 是 写 寄 
存 器 必须 明确 使 能 写 控制 信号 。 由 于 写 操作 是 边沿 触发 的 ， 因 此 写 操作 的 所 有 输入 (要 
写 的 内 容 、 寄 存 器 号 、 写 控制 信号 ) 必须 在 时 钟 边 沿 有 效 。 因 为 寄存 器 文件 的 写 人 是 边 
沿 触发 的 ， 故 可 以 在 同一 时 钟 周期 内 读 出 和 写 入 同一 寄存 器 : 读 操作 将 读 出 以 前 写 人 的 
内 容 ， 而 写 人 的 内 容 在 下 一 时 钟 周 期 才 可 读 。 输 入 的 寄存 器 号 都 是 5 位 ， 数 据 线 为 64 
位 。 若 采用 附录 A 中 的 ALU 设计 ， 则 ALU 的 操作 可 由 4 位 ALU 操作 信号 控制 。 我 们 
使 用 ALU 的 零 检测 输出 信号 实现 分 支 指令 


下 面 考虑 LEGv8 取 数 指令 和 存 数 指令 ， 其 一 般 形式 为 LDUR X1, [X2,offset_ value] 


或 STUR Xl1, [X2,offset_value]。 在 这 类 指令 中 ,通过 将 基 址 寄存 器 (如 X2) 的 内 容 
与 指令 中 的 9 位 带 符号 偏 移 字段 相 加 ， 得 到 存储 器 地 址 。 如 果 是 存 数 指令 ， 待 写 数据 要 从 寄 


Data 





日 ”也 称 寄存 器 组 或 寄存 器 堆 。 一 一 译 者 注 
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存 器 x1 中 读 出 。 如 果 是 取 数 指令 ， 则 要 将 从 存储 器 中 读 出 的 数据 存 人 寄存 器 文件 中 指定 的 





寄存 器 中 ,如 X1。 因 此 ， 图 4-7 中 的 寄存 器 文件 和 ALU 都 需要 。 

此 外 ， 还 需要 一 个 单元 将 指令 中 的 9 位 偏 移 字段 符号 扩展 (sign- 
extend) 为 64 位 的 带 符号 值 ， 以 及 一 个 保存 读 出 或 写 人 数据 的 数据 存 
储 单元 。 数 据 存 储 单元 在 存储 指令 时 被 写 人 ， 因 此 数据 存储 器 有 读 
写 控制 信号 、 输 入 地 址 和 待 写 人 存储 器 的 输入 数据 。 图 4-8 展示 了 
这 两 种 单元 。 





MemRead 


3) 数据 存储 器 单元 b) 符号 扩展 单元 


符号 扩展 : 为 增加 数据 项 
的 长 度 ， 将 原 数 据 项 最 高 
位 的 符号 位 复制 多 份 到 新 
数据 项 的 高 位 。 


图 4-8 除了 图 4-7 中 的 寄存 器 文件 和 ALU 外 ，load 和 store 指令 实现 所 需 的 两 个 单元 一 一 数据 存 
储 器 单元 和 符号 扩展 单元 。 数 据 存储 器 单元 是 一 个 状态 单元 ， 两 个 输入 为 地 址 和 待 写 入 的 
数据 ， 一 个 输出 为 读 出 的 结果 。 读 、 写 控制 信号 都 是 独立 的 ， 尽 管 任意 时 钟 只 能 激活 其 中 
一 个 。 与 寄存 器 文件 不 同 ， 存 储 器 单元 需要 一 个 读 控制 信号 ， 因 为 读 一 个 无 效 地 址 可 能 会 
出 现 问题 ,第 5 章 会 给 出 这 种 情况 。 符 号 扩展 单元 有 一 个 32 位 的 指令 作为 输入 ”， 该 指令 
选取 9 位 用 于 存 取 数 据 ， 或 选取 19 位 用 于 比较 为 0 分 支 ?， 符 号 扩展 为 64 位 输出 ( 见 第 2 
章 )。 假 定数 据 存储 器 的 写 操作 是 边沿 触发 。 标 准 的 存储 器 芯片 实际 上 有 一 个 写 使 能 信号 
用 于 写 操作 。 尽 管 写 使 能 信号 不 是 边沿 触发 的 ， 但 我 们 的 边沿 触发 设计 很 容易 应 用 于 真正 
的 存储 器 芯片 。 关 于 真实 存储 器 芯片 如 何 工作 的 进一步 讨论 ， 见 附录 A 的 A.8 节 


CBZ 指令 有 两 个 操作 数 ， 一 个 寄存 器 用 于 测试 结果 是 否 为 0， 另 
一 个 是 19 位 偏 移 量 ， 用 于 计算 相对 于 分 支 指令 所 在 地 址 的 分 支 目标 地 
址 ( branch target address)。 指 令 格式 为 CBZ Xl, offset。 为 了 实现 该 
指令 ,我 们 必须 将 PC 值 与 符号 扩展 后 的 指令 偏 移 量 字段 相 加 以 得 到 分 
支 目 标 地 址 。 分 支 指令 ( 见 第 2 章 ) 的 定义 中 有 两 个 需要 注意 的 地 方 : 
。 指令 集体 系 结构 规定 分 支 地址 计算 时 使 用 的 基 址 是 分 支 指令 
本 身 的 地 址 。 


分 支 目 标 地 址 : 分 支 指 
令 指 定 的 地 址 ， 若 分 支 
产生 ， 该 地 址 将 成 为 新 的 
PC 值 。 在 LEGv8 体系 结 
构 中 ， 分 支 目标 为 指令 中 
的 偏 移 字段 与 分 支 指令 地 
址 之 和 - 


。 该 结构 还 规定 偏 移 量 左 移 2 位 (以 字 为 单位 的 偏 移 量 )， 这 样 偏 移 量 的 有 效 范围 就 扩 


大 了 4 售 。 
为 了 处 理 后 面 这 种 情况 ， 我 们 需要 把 偏 移 量 字段 左 移 2 位 。 
除了 计算 分 支 目 标 地 址 ， 我 们 还 必须 确定 下 一 条 指令 将 执行 的 
指令 是 顺序 的 下 一 条 指令 ， 还 是 分 支 目 标 地 址 处 的 指令 。 当 分 支 条 
件 为 真 (例如 ， 操 作 数 为 0) 时 ,分 支 目 标 地 址 成 为 新 的 PC， 我 们 
就 说 分 支 发 生 ( branch taken) 了 。 若 操作 数 不 为 0， 自 增 后 的 PC 将 


日 但 符号 扩展 单元 实际 只 需要 指令 中 的 9 位 或 19 位 进行 扩展 。 一 一 译 者 注 
加 即 CBZ 指 令 . 一 一 译 者 注 


分 支 发 生 : 分 支 条 件 满足 ， 
PC 变 为 分 支 目标 地 址 。 
所 有 的 无 条 件 跳 转 都 是 发 
生 的 分 支 。 
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取代 当前 PC (就 像 其 他 普通 指令 一 样 )， 这 时 就 说 分 支 未 发 生 (branch | 分 支 未 发 生 : 分 支 条 件 不 
not taken ) 。 满足 ，PC 变 为 分 支 指令 
因此 ， 分 支 指令 的 数据 通路 需要 两 个 操作 : 计算 分 支 目标 地 址 | 的 下 一 条 指令 的 地 址 

和 测试 寄存 器 内 容 。( 分 支 指令 也 会 影响 数据 通路 的 取 指 部 分 ， 这 一 

点 我 们 稍 后 解释 。) 图 4-9 给 出 了 数据 通路 中 处 理 分 支 的 部 分 。 为 了 计算 分 支 目标 地 址 ， 分 
支 数据 通路 包含 了 一 个 如 图 4-8 所 示 的 符号 扩展 单元 和 一 个 加 法 器 。 为 了 进行 比较 ， 需 使 用 
图 4-7a 中 的 寄存 器 文件 提供 寄存 器 操作 数 (但 不 需 向 寄存 器 文件 写 人 数据 )。 另 外 ， 比 较 可 
以 通过 使 用 附录 A 设计 的 ALU 完成 。 因 为 ALU 提供 一 个 指示 结果 是 否 为 0 的 输出 信号 ， 
故 可 以 将 寄存 器 数 送 给 ALU， 同 时 设置 控制 信号 以 传递 寄存 器 值 。 若 ALU 输出 的 零 信号 有 
效 ， 则 可 知 寄 存 器 值 为 0。 尽管 零 输出 信号 始终 指示 结果 是 否 为 0， 但 我 们 只 用 它 来 实现 条 
件 分 支 时 的 比较 操作 。 稍 后 将 详细 介绍 在 数据 通路 中 使 用 ALU 时 ， 如 何 连接 控制 信号 。 


来 自 指令 数据 通路 的 PC+4 一 “| 


Add Sum 和 

















图 4-9 分 支 指令 的 数据 通路 ， 使 用 ALU 计算 分 支 条 件 是 否 成 立 ， 使 用 另 一 个 加 法 器 将 自 增 后 
的 PC 值 与 符号 扩展 后 左 移 2 位 的 19 位 指令 字段 (分 支 偏 移 量 ) 相 加 ， 得 到 分 支 目 标 地 
址 。 标 有 “ 左 移 2 位 ”的 单元 只 是 输入 到 输出 之 间 的 一 条 简单 路 径 ， 将 符号 扩展 后 的 偏 
移 量 字段 的 低位 加 上 两 个 0 (二 进 制 )。 因 为 “ 移 位 ”的 数量 是 固定 的 ， 所 以 并 不 需要 
真正 的 移 位 电路 。 因 为 偏 移 量 从 19 位 符号 扩展 而 来 的 ， 所 以 移 位 仅 会 丢掉 “符号 位 ”。 
控制 逻辑 根据 ALU 的 零 输 出 决定 是 用 递增 的 PC 还 是 分 支 目标 地 址 来 取代 当前 的 PC 


分 支 指令 将 指令 中 的 26 位 偏 移 地 址 字段 左 移 2 位 ， 并 和 PC 相 加 。 通 过 在 偏 移 量 后 面 
加 上 两 个 0 可 以 实现 左 移 2 位 (如 第 2 章 所 述 )。 


创建 一 个 简单 的 数据 通路 


我 们 已 经 讨论 了 不 同 指令 类 型 所 需要 的 数据 通路 单元 ， 现 在 可 以 把 它们 组 合成 一 个 数据 
通路 ， 并 加 上 控制 来 完成 实现 。 这 个 最 简单 的 数据 通路 试图 使 每 一 条 指令 的 执行 都 在 一 个 时 
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钟 周期 内 完成 。 该 设计 意味 着 ， 每 条 指令 执行 过 程 中 任何 数据 通路 单元 都 只 能 使 用 一 次 ， 如 
果 需 要 使 用 多 次 ， 则 必须 将 该 数据 通路 单元 复制 多 份 。 因 此 ， 我 们 除了 需要 一 个 指令 存储 器 
来 存放 指令 之 外 ， 还 需要 一 个 数据 存储 器 来 存储 数据 。 尽 管 有 的 功能 单元 需要 复制 ， 但 很 多 
单元 可 以 在 不 同 的 指令 流 中 共享 。 

为 了 在 两 种 不 同类 型 的 指令 间 共 享 数据 通路 单元 ， 我 们 需要 允许 一 个 功能 单元 的 某 个 输 
人 连接 多 个 来 源 ， 通 过 多 路 选择 器 和 控制 信号 来 从 多 个 输入 来 源 中 进行 选择 。 


| 例题 | 建立 一 个 数据 通路 站 
算术 逻辑 指令 (或 R 型 指令 ) 的 数据 通路 与 访 存 指令 的 数据 通路 很 相似 。 关 键 区 别 在 于 
。 算术 逻辑 指令 使 用 ALU， 其 输入 来 自 两 个 寄存 器 。 存 储 器 指令 也 使 用 ALU 来 进行 地 
址 计算 ， 但 其 ALU 的 第 二 个 输入 是 指令 中 9 位 偏 移 量 的 符号 扩展 。 
e 存 人 目的 寄存 器 中 的 值 来 自 于 ALU (对 R 型 指令 而 言 ) 或 者 存储 器 (对 取 数 load 
而 言 )。 
试 设计 访 存 指令 和 算术 逻辑 指令 操作 部 分 的 数据 通路 ,使 用 一 个 寄存 器 文件 和 一 个 ALU 处 
理 两 种 指令 ， 增 加 必要 的 多 路 选择 器 。 
| 答案 | 为 了 只 用 一 个 ALU 和 一 个 寄存 器 文件 来 创建 数据 通路 ，ALU 的 第 二 个 输入 要 有 两 
个 不 同 的 来 源 。 同 样 ， 寄 存 器 文件 的 待 写 数据 也 有 两 个 不 同 的 来 源 。 因 此 ， 在 ALU 的 输入 
和 寄存 器 文件 的 输入 数据 处 各 放置 一 个 多 路 选择 器 。 图 4-10 给 出 了 合并 后 数据 通路 的 操作 
部 分 。 
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图 4-10 访 存 指令 和 RR 型 指令 数据 通路 的 合并 。 这 个 例子 说 明了 如 何 通过 加 入 多 路 选择 器 将 图 4-7 和 
图 4-8 合并 成 一 个 数据 通路 ， 其 中 增加 了 两 个 多 路 选择 器 








现在 ， 加 上 取 指 数据 通路 (图 4-6 )、R 型 指令 和 访 存 指令 数据 通路 (图 4-10 )， 以 及 分 
支 指令 数据 通路 (图 4-9 )， 我 们 可 以 把 所 有 部 件 合并 在 一 起 ， 构 建 一 个 简单 的 LEGv8 核心 
体系 结构 数据 通路 ， 如 图 4-11 所 示 。 分 支 指令 使 用 主 ALU 检测 寄存 器 操作 数 ， 所 以 必须 保 
证 图 4-9 中 的 加 法 器 完成 分 支 目标 地 址 的 计算 。 此 外 还 增加 了 一 个 多 路 选择 器 ， 用 于 选择 是 
将 顺序 的 指令 地 址 (PC+4 ) 还 是 分 支 目标 地 址 写 人 PC。 
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图 4-11 将 不 同类 型 指令 所 需 的 功能 单元 合并 在 一 起 实现 的 一 个 简单 的 核心 LEGv8 数据 通路 。 图 中 的 
部 件 来 自 图 4-6、 图 4-9 和 图 4-10。 该 数据 通路 可 以 在 一 个 时 钟 周期 内 完成 一 条 基本 指令 ( 存 
取 寄 存 器 、ALU 操作 和 分 支 )。 为 了 支持 分 支 指令 还 增加 了 一 个 额外 的 多 路 选择 器 。 对 无 条 
件 分 支 ( 跳 转 ) 指令 的 支持 将 在 以 后 增加 


简单 的 数据 通路 完成 后 ， 我 们 可 以 给 其 加 上 控制 单元 。 控 制 单元 必须 能 够 接收 输入 ， 并 
能 为 每 个 状态 单元 产生 写 信号 、 每 个 多 路 选择 器 的 选择 信号 ， 以 及 ALU 的 控制 信号 。 由 于 
ALU 的 控制 在 很 多 方面 都 不 同 ， 因 此 ， 在 设计 控制 单元 的 其 他 部 分 之 前 ， 最 好 先 设计 ALU。 

也 符号 扩展 逻辑 必须 二 选 一 ,一 是 符号 扩展 9 位 (指令 中 的 20:12 位 ) 用 于 数据 传 
输 指 令 ， 二 是 符号 扩展 19 位 (23:5 位 ) 用 于 条 件 分 支 。 因 为 输入 指令 都 是 32 位 ， 所 以 可 以 
通过 指令 的 操作 码 位 选择 合适 的 字段 。LEGv8 的 第 26 位 操作 码 在 数据 传输 指令 中 恰好 为 0， 
在 条 件 分 支 指 令 中 为 1。 因 此 ， 第 26 位 操作 码 可 以 控制 符号 扩展 座 辑 中 的 二 选 一 多 路 选择 
器 ， 值 为 0 时 选择 9 位 ， 为 1 时 选择 19 位 。 
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4.4 一 种 简单 的 实现 机 制 


在 本 节 中 ,我 们 将 学 习 如 何 实现 一 个 简单 的 LEGv8 子 集 。 我 们 使 用 上 一 节 的 数据 通 
路 并 增加 一 个 简单 的 控制 单元 来 构建 这 一 简单 的 实现 ， 支 持 取 寄存 器 (IDUR)、 存 寄存 器 
(STUR)、 比 较为 0 分 支 (CBZ) 以 及 算术 逻辑 指令 加 法 (ADD)、 减 法 (SUB)、 与 (AND)、 或 
(ORR)。 后 面 我 们 还 将 实现 无 条 件 分 支 指令 (B)。 























4.4.1 ALU 控制 
附录 A 中 的 LEGv8 ALU 为 其 4 位 控制 信号 定义 了 下 列 6 种 有 效 的 输入 组 合 : 
上 
与 (AND) 有 

0001 或 (OR) 
0010 加 (add) 
0110 减 (subtract) 
0111 传递 输入 b (pass input b) 
1100 或 非 [NOR】 














根据 指令 类 型 的 不 同 ，ALU 将 执行 上 述 前 五 种 功能 中 的 一 种 。( NOR 可 用 于 LEGv8 指 
令 集 的 其 他 部 分 ， 但 并 不 在 我 们 目前 实现 的 子 集中 。) 对 于 取 寄 存 器 和 存储 寄存 器 指令 ,ALU 
用 加 法 计算 存储 器 地 址 。 对 于 R 型 指令 ， 根 据 指令 低 11 位 的 操作 码 字 段 ( 见 第 2 章 ) 的 值 ， 
ALU 执行 4 种 操作 中 的 一 种 (AND 、OR 、subtract 或 add)。 对 于 比较 为 0 分支 指令 ，ALU 
仅 传 递 寄存 器 的 输入 值 。 

使 用 一 个 小 的 控制 单元 即 可 生成 4 位 的 ALU 控制 输入 信号 ， 该 单元 输入 为 指令 的 操作 
码 字 段 和 2 位 的 ALUOp 控制 字段 。ALUOp 指明 要 进行 的 操作 是 存 取 指 令 需 要 的 加 法 ( 00 )、 
CB2 需要 的 传递 输入 b ( 01 )， 还 是 由 指令 操作 码 字段 ( 10 ) 译 码 决定 的 操作 。ALU 控制 单 
元 的 输出 信号 为 4 位 ， 通 过 生成 前 面 所 示 的 4 位 组 合 ， 直 接 对 ALU 进行 控制 。 

图 4-12 说 明了 如 何 基于 2 位 的 ALUOP 控制 信号 和 11 位 的 操作 码 字 段 ， 生 成 ALU 的 控 
制 信号 。 在 本 章 的 后 面 将 会 看 到 怎样 由 主 控制 单元 生成 ALUOp。 

















































load register 
STUR store register | XXXXXXXXXXX | add 
CBZ | % Ee i XXXXXXXXXXX | pass inputb 0111 
Rtype | 10 | ADD 10001011000 | add 0010 
Riype | 10 | SUB 11001011000 | subtract 0110 
Ritype 10 | AND 10001010000 | AND 0000 
Rtype 10 | ORR 10101010000 | OR 0001 





图 4-12 如 何 根据 ALUOP 控制 位 和 R 型 指令 的 opcode 字段 设置 ALU 控制 信号 。 第 一 列 中 的 指令 
决定 了 ALUOPp 位 的 设置 。 所 有 的 编码 以 二 进 制 给 出 。 注 意 ， 当 ALUOp 为 00 或 01 时 , 所 
需 的 ALU 的 动作 不 依赖 于 opcode 字段 ， 即 操作 码 的 值 无 所 谓 是 多 少 ， 故 这 些 位 记 为 X。 当 
ALUOp 为 10 时 ，opcode 字段 用 于 设置 ALU 控制 输入 信号 。 详 情 见 附录 A 


这 种 多 级 译 码 的 方法 ( 主 控制 单元 生成 ALUOp 作为 ALU 控制 单元 的 输入 ， 再 由 ALU 
控制 单元 生成 真正 的 ALU 控制 信号 ) 是 一 种 常用 的 实现 技术 。 使 用 多 级 控制 可 以 减 小 主 控 
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制 单元 的 规模 。 使 用 多 个 小 控制 单元 也 可 能 减少 控制 单元 的 延迟 。 这 种 优化 是 很 重要 的 ， 因 
为 控制 单元 的 延迟 对 决定 时 钟 周期 的 长 短 非 常 关键 。 

有 多 种 不 同方 法 可 把 2 位 的 ALUOp 字段 和 11 位 的 opcode 字段 映射 为 4 位 ALU 控制 
信号 。 因 为 opcode 字段 的 2048 种 可 能 取 值 中 只 有 很 小 一 部 分 有 意义 ， 并 且 只 有 当 ALUOp 
为 10 时 才 使 用 opcode 字段 ， 因 此 我 们 可 以 用 一 个 小 逻辑 单元 去 识别 可 能 的 取 值 ， 并 生成 正 
确 的 ALU 控制 信号 - 

设计 逻辑 单元 时 ， 可 以 将 ALUOp 和 opcode 字段 有 意义 地 组 合 
构成 一 张 真 值 表 ， 如 图 4-13 所 示 。 该 真 值 表 ( truth table) 说 明了 如 
何 根据 两 个 输入 字段 得 到 4 位 的 ALU 控制 信号 。 由 于 完整 的 真 值 表 
非常 大 (2"=8192 项 )， 并 且 我 们 并 不 关心 所 有 的 输入 组 合 ， 因 此 该 
真 值 表 只 列 出 了 ALU 控制 信号 有 效 的 部 分 表 项 。 在 本 章 中 ,我 们 将 一 直 采 用 这 样 的 方式 表 
示 真 值 表 ， 只 列 出 必须 设置 的 选项 ， 而 忽略 那些 恒 为 0 或 无 关 的 项 。( 这 样 做 也 有 缺点 ， 我 
们 在 附录 C 的 C.2 节 中 讨论 ) 。 


真 值 表 : 还 加 操作 的 一 种 
表示 方法 ， 即 列 出 输入 的 
所 有 情况 和 对 应 的 输出 
































0 0 | X 其 [三 其 和 其 x x 0010 | 
We Et ‘EE 
1 x | | 
1 We ld A 0 | | | oO ne | oa 
4 | *w jlololol|lol3|l0|n | Dn | :| 00 | 
. ww “hl od ml el 0 DT 





























图 4-13 4 位 ALU 控制 信号 ( 称 为 操作 ) 的 真 值 表 。 输 入 为 ALUOp 和 opcode 字段 。 只 列 出 了 
ALU 控制 有 效 的 项 ， 以 及 一 些 无 关 项 。 例 如 ，ALUOPp 不 使 用 编码 11， 故 真 值 表 包含 
1X 和 X1， 而 不 是 10 和 01。 对 于 opcode 的 所 有 11 位 ， 可 以 发 现 4 条 及 型 指令 只 有 
第 30、29 和 24 位 不 同 。 因 此 ，ALU 控制 单元 只 需要 这 3 位 而 不 是 全 部 11 位 操作 码 
作为 输入 


由 于 在 许多 情况 下 ， 我 们 对 某 些 输 入 的 取 值 并 不 关心 ， 同 时 为 “| 无 关 项 ， 运 样 函 禾 的 一 个 
了 简化 真 值 表 ， 我 们 也 列 出 无 关 项 (don't-care term)。 真 值 表 中 的 无 。 | 元 末 ， 表示 输出 与 该 输入 
关 项 (在 输入 列 中 用 X 表示) 表明 ， 输 出 与 该 列 对 应 的 输入 信和 无关 。 | * 关 下 六 不 
如 图 4-13 的 第 一 行 所 示 ， 当 ALUOp 取 00 时， 无 论 opcode 字段 取 
何 值 ，ALU 控制 总 为 0010。 这 时 ， 真 值 表 中 此 行 的 opcode 字段 就 是 无 关 项 。 后 面 ， 我 们 还 
将 看 到 另 一 种 类 型 的 无 关 项 。 如 果 你 不 熟悉 无 关 项 的 概念 ， 请 阅读 附录 A。 

真 值 表 建 好 以 后 ， 可 以 进行 优化 并 转化 成 门 电 路 。 这 是 一 个 完全 机 械 的 过 程 。 因 此 ， 这 
里 我 们 不 再 给 出 最 终 的 步 又， 而 是 将 此 过 程 及 其 结果 放 在 附录 C 中 的 C.2 节 讨论 。 


4.4.2， 主 控制 单元 的 设计 


我 们 已 经 描述 了 如 何 使 用 opcode 和 2 位 信号 作为 输入 来 设计 ALU 控制 单元 ， 现 在 来 看 
看 控制 的 其 他 部 分 。 在 开始 之 前 ， 首 先 看 一 条 指令 的 各 个 字段 以 及 图 4-11 所 构建 数据 通路 
所 需 的 控制 信号 。 为 了 理解 怎样 将 指令 的 各 个 字段 与 数据 通路 相连 ， 需 要 复习 一 下 三 种 指令 
类 型 的 格式 : R 型 指令 、 分 支 指令 和 存 取 指令 ， 如 图 4-14 所 示 。 
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字段 位 的 位 置 opcode Rm | sham | Rn Rd 
31:21 20:16 15:10 9:5 4:0 
a) R 型 指令 
字段 位 的 位 置 1986or1984 | addess |0| mm | R | 

31:21 20:12 11:10 9:5 4:0 

b) load/store 指 令 
字段 位 的 位 置 180 address Rt 
31:26 23:5 4:0 

0) 条 件 分 支 指令 


图 4-14 三 种 指令 类 型 (R 型 、 取 数 / 存 数 和 条 件 分 支 ) 使 用 的 三 种 指令 格式 。 后 面 马 上 会 讲 
到 ,无 条 件 分 支 ( 跳 转 ) 指令 使 用 另 一 种 格式 。a) R 型 指令 的 格式 ， 有 三 个 寄存 器 操 
作 数 : Rn，Rm 和 Rd。Rn 和 Rm 字段 为 源 操 作 数 ，Rd 字段 为 目的 操作 数 。opcode 
字段 指出 ALU 的 功能 ， 由 前 面 设计 的 ALU 控制 单元 译 码 。 我 们 实现 的 R 型 指令 有 
ADD、SUB、AND 和 ORR。shamt 字段 只 用 于 移 位 ， 本 章 中 暂 不 考虑 。b) load 指令 ( 操 
作 码 =1986ten) 和 store 指令 (操作 码 =1984wen) 的 格式 。Rn 寄存 器 作为 基 址 与 9 位 的 
地 址 字段 相 加 以 得 到 访 存 地 址 。 对 于 load 指令 ，Rt 是 目的 寄存 器 。 对 于 store 指令 ， 
Rt 是 待 存 人 数据 所 在 的 寄存 器 。c) CBZ 指令 (比较 为 0 分 支 指 令 ， 操 作 码 =180 ) 的 
格式 。Rt 是 源 寄存 器 ， 用 于 测试 值 是 否 为 0。19 位 地 址 进行 符号 扩展 、 移 位 ， 然 后 与 
PC 相 加 以 得 到 分 支 目标 地 址 


指令 格式 中 我 们 可 能 用 到 的 信息 有 : 
。 opcode 字段 ,6 一 11 位 宽 ， 位 于 指令 中 的 31:26 位 到 31:21 位 。 | opcoge ， 指 明 指令 操作 类 
日 对 于 R 型 指令 和 1load/store 指令 的 基 址 寄存 器 ， 第 一 寄存 器 。 | 型 和 格式 的 字段 。 
操作 数 (Rn) 总 是 位 于 9:5 位 。 
。 另 一 个 寄存 器 操作 数 有 两 个 出 处 。R 型 指令 是 20:16 位 (Rm)，load 指令 的 写 入 寄存 
器 是 4:0 位 ( Rt)。 该 字段 也 用 来 指明 CBZ 指令 所 需要 测试 的 寄存 器 。 因 此 ， 我 们 需 
要 增加 一 个 多 路 选择 器 ， 以 选择 指令 中 哪个 字段 指明 了 所 要 读 的 寄存 器 号 。 
。 另 一 个 操作 数 可 能 是 ， 比 较为 0 分 支 指令 的 19 位 偏 移 或 者 是 load/store 指令 的 9 位 偏 移 。 
。 R 型 指令 和 1load 指令 的 目的 寄存 器 (分 别 是 Rd 和 Rt) 由 4:0 位 指出 。 
第 2 章 给 出 的 第 一 个 设计 原则 一 一 简单 源 于 规整 一 一 在 控制 器 设计 里 就 体现 出 来 了 。 
根据 上 述 信息 ， 我 们 可 以 在 简单 的 数据 通路 中 加 上 指令 标记 并 增加 一 个 多 路 选择 器 (用 
于 选择 寄存 器 文件 需要 读 的 寄存 器 号 )， 图 4-15 展示 了 这 些 增 加 的 部 件 和 ALU 控制 块 ， 以 及 
状态 单元 的 写 信号 、 数 据 存储 器 的 读 信 号 和 多 路 选择 器 的 控制 信号 。 由 于 所 有 的 多 路 选择 器 
都 是 两 个 输入 端 ， 因 此 每 个 多 路 选择 器 都 需要 一 条 单独 的 控制 线 。 
图 4-15 给 出 了 7 个 1 位 控制 信号 和 2 位 ALUOpP 控制 信号 。 前 面 已 经 说 明了 ALUOp 控 
制 信号 如 何 工作 ， 在 决定 指令 执行 过 程 中 如 何 设置 这 些 控制 信号 之 前 ， 最 好 先 定义 一 下 其 他 
7 条 控制 信号 如 何 工作 。 图 4-16 描述 了 这 7 个 控制 信号 的 功能 。 
了 解 了 每 个 控制 信号 的 功能 之 后 ， 我 们 再 来 看 看 如 何 设置 这 些 信号 。 所 有 控制 信号 ， 除 
了 PCSrc 外 ， 都 可 由 控制 单元 根据 指令 的 操作 码 来 确定 。PCSrc 信号 在 指令 为 CBZ (控制 单 
元 可 以 做 出 的 决定 )， 且 ALU 的 零 输 出 有 效 时 被 置 位 。 若 要 生成 PCSrc 信号 ， 需 将 来 自控 制 
单元 的 称 为 “Branch "(分支 ) 的 信号 和 ALU 的 零 输出 信号 相 “ 与 ”。 
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Instruction 
[31-0] 


Instruction 
memory 














Instruction [31-0] 





MemRead 


图 4-15 图 4-11 的 数据 通路 上 增加 了 所 有 必需 的 多 路 选择 器 ， 并 标识 出 了 所 有 的 控制 信 
号 。 控 制 信号 以 灰色 线 表示 。 图 中 还 增加 了 ALU 控制 单元 。PC 不 需要 写 控制 信 
号 ,因为 PC 在 每 个 时 钟 周期 结束 时 都 被 写 人 -次 。 分 支 控制 逻辑 决定 将 PC 递增 
还 是 写 和 人 分支 目标 地 址 


营 无 效 时 的 效果 








Reg2Loc | 读者 存 器 2 的 寄存 器 号 来 自 Rm 字 段 ( 位 








Sona 读 寄 存 器 2 的 寄存 器 号 来 自 Rt 字段 ( 位 4:0 ) 

Re | 无 更 人 让 时 文件 中 由 写 志和 吉 给 入江 
ALU 的 第 二 个 操作 数 来 自 寄存 器 文件 的 = 

ALUSrc 。 | 第 二 个 输出 【读数 据 2 ) ALu 的 第 二 个 操作 数 为 指令 低 16 位 的 符号 扩展 





PCSre 。 | 短 P 电 PC*4 了 代 ，PC*4 由 ”个 加 法 器 计 | PC 由 分 支 目标 地 址 ( 由 一 个 加 法 名 产生 ) 取代 




















| “地 址 输入 端 指定 的 存储 器 单元 内 容 输出 到 读 
MemRead | 无 数据 输出 端口 
将 写 入 数据 输入 端的 数据 写 入 到 地 址 输入 端 
MemWrite | 无 | 指定 的 存储 器 单元 中 
MemtoReg | 写 入 寄存 器 的 信 来 自 ALU | 写 入 寄存 器 的 数据 来 自 数据 存储 器 





图 4-16 7 个 控制 信号 的 作用 。 当 两 路 多 路 选择 器 的 1 位 控制 信号 有 效 时 ， 选 择 第 1 个 输 
人 ， 否则 选择 第 0 个 输入 。 注 意 ， 所 有 状态 单元 都 有 一 个 隐 含 的 输入 一 一 时 钟 信 
号 ， 且 该 时 钟 被 用 于 写 操作 的 控制 。 在 状态 单元 外 部 进行 时 钟 门 控 可 能 导致 时 序 
问题 的 产生 (附录 A 中 对 此 问题 有 进一步 的 讨论 ) 





现在 ,这 9 位 控制 信号 (图 4-16 的 7 位 和 2 位 ALUOp) 可 以 根据 控制 单元 输入 信号 
(操作 码 31:26 位 ) 来 设置 . 图 4-17 给 出 了 包含 控制 单元 和 控制 信号 的 数据 通路 。 
在 尝试 为 控制 单元 写 出 方程 式 或 真 值 表 之 前 ， 首 先 对 控制 功能 进行 形式 化 的 定义 。 由 于 
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控制 信号 的 设置 仅 依赖 于 操作 码 ， 我们 需要 定义 在 每 种 操作 码 下 每 个 控制 信号 的 取 值 : 0、1 
或 任意 值 X。 根 据 图 4-12、 图 4-16 和 图 4-17， 图 4-18 定义 了 每 种 操作 码 对 应 的 控制 信号 应 
如 何 设置 。 
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图 4-17 包含 控制 单元 的 简单 数据 通路 。 控 制 单 元 的 输入 为 指令 的 11 位 操作 码 字段 ， 输 出 包括 三 
个 1 位 的 多 路 选择 器 控制 信号 ( Reg2Loc、ALUSre 和 MemtoReg)， 三 个 寄存 器 文件 和 存 
储 器 读 写 的 控制 信号 ( Reg Write、MemRead 和 MemWrite)， 一 个 决定 是 否 可 能 分 支 的 1 位 
信号 (Branch)， 以 及 一 个 ALU 的 2 位 控制 信号 ( ALUOp)。 分 支 控制 信号 和 ALU 的 零 输 
出 一 起 送 入 一 个 与 门 ， 其 输出 控制 下 一 个 PC 的 选择 。 注 意 PCSrc 是 一 个 衍生 而 来 的 信号 ， 
不 是 从 控制 单元 直接 得 来 。 因 此 ， 在 后 面 的 图 中 没有 标 出 这 个 信号 名 称 


4.4.3 ”数据 通路 的 操作 


根据 图 4-16 和 图 4-18 包含 的 信息 ， 可 以 设计 出 控制 单元 逻辑 ， 但 在 此 之 前 ， 我 们 先 分 
析 一 下 每 条 指令 如 何 使 用 数据 通路 。 下 面 几 个 图 展示 了 三 种 不 同类 型 的 指令 在 数据 通路 中 的 
执行 过 程 。 图 中 有 效 的 控制 信号 和 活跃 的 数据 通路 部 件 已 着 重 标 出 。 注 意 ， 控 制 信号 为 0 的 
多 路 选择 器 ， 即 使 其 控制 信号 没有 着 重 标 出 ， 也 有 明确 的 动作 。 对 于 多 位 信号 ， 只 要 其 中 任 
何 信号 有 效 ， 就 将 其 着 重 标 出 。 

图 4-19 给 出 了 R 型 指令 (如 ADD Xx1,X2,Xx3) 的 数据 通路 操作 。 尽 管 所 有 操作 都 在 一 
个 时 钟 周期 内 完成 ,我 们 仍 可 以 将 指令 的 执行 分 为 4 步 ， 按 信息 流向 排序 如 下 : 

1. 取 指 ， 递 增 PC。 

2. 从 寄存 器 文件 中 读 出 寄存 器 X2 和 X3。 同 时 ， 主 控制 单元 计算 控制 信号 的 状态 。 
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3. ALU 对 从 寄存 器 文件 读 出 的 数据 进行 操作 ， 根 据 opcode 字段 确定 ALU 的 功能 。 
4. 将 ALU 的 结果 写 和 寄存 器 文件 中 的 目的 寄存 器 (X1 )。 





R 型 0 | 0 a 0 0 0 dl EE 



































0 
LDUR x RE 1 1 0 0 | 
STUR 1 入 Xx 0 0 EA 0 0 0 
CBZ 本 0 | x 0 0 0 工 0 | 训 





图 4-18 





控制 信号 的 设置 完全 由 指令 操作 码 字 段 设置 。 表 的 第 一 行 对 应 于 R 型 指令 (ADD、SUB、 
AND、ORR)。 对 于 这 些 指令 ， 源 寄存 器 字段 为 Rn 和 Rm， 目的 寄存 器 字段 为 Rd， 这 决定 了 
ALUSrc 和 Reg2Loc 信号 如 何 设置 。 此 外 ，R 型 指令 要 写 一 个 寄存 器 ( RegWrite=1 )， 但 是 不 
读 写 数据 存储 器 。 当 Branch 控制 信号 为 0 时 ，PC 无 条 件 更 新 为 PC+4 ; 反之 , 如果 ALU 的 
零 输出 也 为 高 ， 则 PC 由 分 支 目 标 地 址 取代 。 当 R 型 指令 的 ALUOp 为 10 时 ，ALU 的 控制 
信号 根据 opcode 字段 生成 。 表 中 第 二 行 和 第 三 行 给 出 了 LDUR、STUR 指令 的 控制 信号 设置 : 
ALUSrc 和 ALUOp 被 设 为 进行 地 址 计算 ; MemRead 和 MemWrite 被 设 为 进行 存储 器 访问 ; 最 
后 ，Reg2Loc 和 RegWrite 被 设 为 在 load 指令 中 将 结果 存 人 寄存 器 Rt 中。 分 支 指令 的 ALUOp 
字段 被 设 为 传递 输入 b ( ALUop = 012)， 用 于 测试 是 否 为 0。 注意 ，RegWrite=0 时 MemtoReg 
的 设置 无 关 紧 要 ， 因 为 寄存 器 没有 被 写 人 ， 寄 存 器 写 端口 的 数据 未 被 使 用 。 因 此 ， 表 中 最 后 两 
行 MemtoReg 项 用 无 关 项 X 填 人 。LDUR 指令 的 Reg2Loc 也 可 加 入 X， 此 时 不 需 使 用 第 二 个 寄 
存 器 。 这 种 无 关 项 必须 由 设计 者 加 入 ， 因 为 这 依赖 于 对 数据 通路 工作 原理 的 了 解 
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图 4-19 R 型 指令 (如 ADD X1,X2,X3) 数据 通路 中 的 操作 。 操 作 中 用 到 的 控制 信号 、 
数据 通路 单元 和 连接 均 突 出 显示 


日 原 书 为 ALUcontrol = 01， 应 为 笔 误 。 一 一 译 者 注 
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我 们 可 以 采用 类 似 图 4-19 的 方式 描述 load 指令 (如 IDUR Xl1, [X2,offset]) 的 执 
行 。 图 4-20 给 出 了 load 指令 有 效 的 功能 单元 和 控制 信号 。load 指令 的 执行 可 以 分 为 5 步 (类 
似 于 R 型 指令 的 四 个 步骤 ): 

1. 从 指令 存储 器 取 指 ， 递 增 PC。 

2. 从 寄存 器 文件 读 出 寄存 器 X2 的 值 。 

3. ALU 将 从 寄存 器 文件 读 出 的 值 与 符号 扩展 后 的 指令 低 9 位 值 (offset) 相 加 。 

4. 将 ALU 的 结果 作为 数据 存储 器 的 地 址 。 

5. 将 存储 单元 的 数据 写 入 寄存 器 文件 (X1 )。 
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图 4-20 load 指令 的 数据 通路 。 操 作 中 用 到 的 控制 信号 、 数 据 通路 单元 以 及 连接 线 突出 
显示 。store 指令 的 操作 与 此 类 似 。 主 要 区 别 是 ， 数 据 存储 器 的 控制 信号 表明 要 
进行 写 操作 ， 而 不 是 读 ， 读 出 的 第 二 个 寄存 器 的 值 作为 待 存储 的 数据 ， 并 且 不 
会 产生 将 数据 存储 器 的 值 写 人 寄存 器 的 操作 


最 后 ， 我 们 以 同样 方式 给 出 比较 为 0 分 支 指令 (如 CBz Xl,offset) 的 相应 操作 。 该 
指令 操作 类 似 于 RR 型 指令 , 但 ALU 的 输出 用 于 决定 是 将 PC+4 还 是 将 分 支 目标 地 址 写 人 
PC。 图 4-21 给 出 了 执行 过 程 的 四 个 步骤 : 

1. 从 指令 存储 器 中 取 指 ， 递 增 PC。 

2. 根据 指令 中 的 4:0 位 ， 从 寄存 器 文件 中 读 出 寄存 器 X1。 

3. ALU 传递 从 寄存 器 文件 中 读 出 的 数据 值 。PC 值 与 符号 扩展 并 左 移 2 位 后 的 指令 低 19 
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位 (offset) 相 加 ， 结 果 是 分 支 目标 地 址 。 
4. 根据 ALU 的 零 输 出 决定 将 哪个 加 法 器 的 结果 存 和 人 PC 中 。 
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图 4-21 比较 为 0 分 支 指令 的 数据 通路 。 控 制 信号 、 数 据 通路 单元 和 连接 突出 显示 。 在 使 
用 寄存 器 文件 和 ALU 进行 比较 操作 之 后 ，ALU 的 零 输出 用 于 在 两 个 候选 中 选择 
一 个 作为 下 一 个 PC 


4.4.4 ”完成 控制 单元 


到 目前 为 止 , 我 们 已 经 了 解 了 指令 的 各 操作 步骤 ， 现 在 继续 讨论 控制 单元 的 实现 。 控 制 
单元 的 功能 可 以 使 用 图 4-18 精确 定义 ， 其 输入 为 操作 码 字段 ， 输 出 为 控制 信号 。 因 此 ， 可 
以 基于 操作 码 的 二 进 制 编码 为 每 个 输出 建立 一 张 真 值 表 。 

图 4-22 将 以 操作 码 为 输入 的 所 有 输出 组 合 在 一 起 ， 将 控制 单元 的 逻辑 关系 定义 在 一 张 
大 的 真 值 表 中 。 该 表 完 整地 描述 了 控制 单元 的 功能 ， 并 可 以 自动 地 直接 以 门 电路 实现 。 附 录 
C 的 C.2 节 给 出 了 最 终 的 步骤。 

目前 ,我 们 已 经 得 到 了 包含 LEGv8 核心 指令 集中 绝 大 多 数 指令 | 单 周 期 实现 : 也 称 为 单 时 
的 单 周 期 实现 ( single-cycle implementation ), 下 面 我 们 加 入 无 条 件 SS 
分 支 ( 跳 转 ) 指令 , 看 看 如 何 扩展 基本 数据 通路 和 控制 单元 ， 来 实现 “| 和 机制。 虽然 易 于 理解 ， 但 
指令 集中 的 其 他 指令 。 因 太 慢 而 不 实用 。 
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图 4-22 简单 单 周期 实现 的 控制 单元 的 功能 真 值 表 。 表 的 上 半 部 分 以 每 种 一 列 的 方式 ， 给 出 了 与 4 种 
指令 类 型 相应 的 各 种 输入 信号 组 合 。 这 些 输 入 决定 了 控制 单元 的 输出 。 表 的 下 半 部 分 给 出 了 
4 种 操作 码 中 每 一 种 相应 的 输出 。 因 此 ，RegWrite 将 在 两 种 不 同 的 输入 组 合 情 况 下 有 效 。 我 
们 在 输入 部 分 使 用 无 关 项 将 4 种 RR 型 指令 组 合 在 一 列 中 ,虽然 也 可 以 为 ADD、SUB、AND、 
ORR 指令 每 个 单列 一 列 。4 种 R 型 指令 的 输出 相同 
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| 例题 | 无 条 件 分 支 ( 跳 转 ) 指令 的 实现 。 
图 4-17 给 出 了 第 2 章 中 许多 指令 的 实现 ,但 其 中 缺少 无 条 件 分 支 指令 。 扩 展 图 4-17 
中 的 数据 通路 和 控制 单元 ， 以 支持 无 条 件 分 支 ( 跳 转 ) 指令 ， 并 说 明 新 控制 信号 如 何 
设置 。 
| 答案 | 无 条 件 指令 类 似 于 分 支 指 令 ， 有 较 长 的 偏 移 量 ， 但 是 无 条 件 执行 的 。 与 分 支 指令 一 
样 ， 分 支 地址 的 最 低 两 位 便 为 00we。64 位 地 址 中 的 次 低 26 位 来 自 指令 中 的 26 位 立即 数字 
段 ， 并 经 过 符号 扩展 。 因 此 ， 通过 使 用 PC 以 及 符号 扩展 并 移 位 的 26 位 偏 移 量 的 和 更 新 PC， 
就 可 以 实现 分 支 指令 。 图 4-23 展示 了 在 图 4-17 基础 上 增加 的 对 分 支 指令 的 支持 。 图 中 增加 
了 一 个 或 门 ， 与 控制 信号 一 起 用 来 选择 分 支 目 标 指令 地 址 。 该 控制 信号 称 为 UncondBranch， 
只 有 当 指令 为 无 条 件 分 支 指令 时 才 有 效 。 


畏 鳃 符号 扩展 单元 也 需要 进行 修改 ， 以 包含 该 指令 中 的 26 位 地 址 。 解 决 方案 是 ， 扩 
展 第 26 位 操作 码 控制 的 2:1 多 路 选择 器 (前 面 的 精 解 中 讨论 过 )， 使 其 包含 该 地 址 ， 并 用 第 
31 和 26 位 操作 码 控制 。 值 01 表示 为 B 指令 选择 地 址 ，10 表示 为 LDUR 和 STUR 指令 选择 
地 址 ，11 表示 为 CBZ 指令 选择 地 址 。 





4.4.5 为 什么 不 使 用 单 周期 实现 
虽然 单 周期 设计 也 可 以 正确 工作 ， 但 效率 太 低 ， 因 此 现代 设计 中 并 未 采用 。 原 因 之 
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是 ， 在 单 周 期 设计 中 ， 所 有 指令 的 时 钟 周 期 必须 一 样 长 。 因 此 ， 时 钟 周期 由 处 理 器 中 最 长 的 
路 径 (执行 时 间 最 长 的 指令 ) 决定 。 该 指令 最 可 能 是 load 指令 ， 依 次 使 用 了 5 个 功能 单元 ; 
指令 存储 器 、 寄 存 器 文件 、ALU、 数 据 存储 器 、 寄 存 器 文件 。 虽然 CPI 为 1 ( 见 第 1 章 ), 但 
为 时 钟 周期 太 长 ， 单 周期 实现 方式 的 总 体 性 能 很 差 。 
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图 4-23 扩展 简单 数据 通路 和 控制 单元 以 支持 无 条 件 分 支 指令 。 增 加 的 或 门 (右上 角 ) 用 
于 控制 多 路 选择 器 ， 在 分 支 目标 或 顺序 指令 之 间 做 出 选择 。 或 门 的 一 个 输入 是 
Uncondbranch 控制 信号 。 尽 管 没 有 显示 ， 但 符号 扩展 逻辑 将 识别 无 条 件 分 支 指令 
的 操作 码 ， 将 分 支 指令 的 低 26 位 符号 扩展 为 64 位 ， 并 与 PC 相 加 


使 用 时 钟 周期 固定 的 单 周期 设计 代价 虽然 很 大 ， 但 对 于 小 指令 集 来 说 可 能 能 够 接受 。 早 
期 具有 简单 指令 集 的 计算 机 就 曾经 采用 过 这 种 实现 方式 。 然 而 ， 若 要 实现 浮 点 单元 或 包含 更 
复杂 指令 的 指令 集 ， 这 样 的 单 周期 设计 就 不 能 胜任 了 。 

因为 时 钟 周期 必须 满足 所 有 指令 中 最 坏 的 情况 ， 故 无 法 使 用 那些 缩短 常用 指令 执行 时 间 
的 技术 ， 因 为 这 些 技术 无 法 改进 最 坏 情况 的 周期 时 间 。 因 此 ， 单 周期 实现 方式 违背 了 第 1 章 
中 于 这 一 设计 原则 


下 一 节 将 讨论 另 一 种 实现 技术 一 一 流水 线 ， 其 使 用 与 单 周 期 类 似 的 数据 通路 ,但 因 知 吐 
率 更 高 而 更 高 效 。 流 水 线 通过 同时 执行 多 条 指令 来 提高 效率 。 
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4.5 流水 线 概述 


流水 线 ( pipelining) 是 一 种 实现 多 条 指令 重 便 执行 的 技术 。 目 
前 ， 铭 对 比 技术 应 用 广泛 。 

本 节 通 过 一 个 比喻 对 流水 线 的 概念 及 相关 问题 进行 了 概述 。 如 
果 你 只 是 想 了 解 流水 线 技术 的 整体 情况 ， 那 么 可 以 集中 阅读 本 节 
然后 直接 跳 到 4.10 节 和 4.11 节 了 解 在 当前 处 理 器 ( Intel Core i7 和 
ARM Cortex-A53 ) 中 所 使 用 的 高 级 流水 线 技术 。 如 果 你 想 深入 解剖 
流水 线 式 计算 机 ， 本 节 给 4.6~4.9 节 做 了 一 个 很 好 的 导 引 。 

任何 一 个 经 常 洗 衣服 的 人 都 会 不 自觉 地 使 用 流水 线 技术 。 非 流水 线 方式 的 洗衣 过 程 包括 
以 下 几 个 步 又 ， 

1. 把 一 批 脏 衣 服 放 入 洗衣 机 里 清洗 。 

2. 洗衣 机 洗 完 后 ， 把 湿 衣 服 放 入 烘 干 机 中 。 

3. 烘 干 机 任务 完成 后 ， 将 干 衣 服 放 到 桌子 上 并 折 伙 起 来 。 

4. 衣服 芝 好 后 ， 请 室友 将 衣服 拿 走 。 

当 你 的 室友 把 衣服 拿 走 后 ， 再 开始 洗 下 一 批 脏 衣 服 。 

如 图 4-24 所 示 ， 流 水 线 方法 可 以 节省 大 量 的 时 间 。 当 第 一 批 脏 衣 服 在 洗衣 机 中 完成 洗 
涤 并 被 放 人 烘 干 机 之 后 ， 第 二 批 脏 衣 服 就 可 以 放 和 人 洗衣 机 里 进行 清洗 了 。 当 第 一 批 衣服 烘 干 
后 ， 你 就 可 以 将 它们 放 到 桌子 上 开始 折 释 ， 同 时 把 洗 净 的 下 一 批 湿 衣服 放 入 烘 干 机 中 ， 并 将 
下 一 批 脏 衣 服 放 人 洗衣 机 里 清洗 。 然 后 ， 请 你 的 室友 把 第 一 批 衣 服 拿 走 ， 你 开始 释 第 二 批 衣 
服 ， 这 时 烘 干 机 中 的 是 第 三 批 衣服 ， 同 时 你 可 以 把 第 四 批 脏 衣 服 放 入 洗衣 机 。 在 这 一 点 上 ， 
所 有 的 步骤 一 一 称 为 流水 线 的 级 stage) 同时 操作 。 只 要 每 一 个 步骤 中 都 有 独立 的 资源 
(工作 单元 ) 时 ， 任 务 就 可 以 流水 化 执行 。 

流水 线 方式 下 ， 单 独 一 批 衣 服从 放 进 洗衣 机 到 烘 干 、 折 全、 打包 取 走 的 总 时 间 并 没有 缩 
短 。 在 多 任务 时 流水 线 之 所 以 更 快 的 原因 是 ， 所 有 的 工作 都 在 并 行 执 行 ， 每 小 时 内 能 够 完成 
更 多 的 工作 量 。 流 水 线 提高 了 洗衣 系统 的 吞吐 率 。 因 此 ， 洗 单 批 衣服 的 洗衣 时 间 虽 然 没 有 缩 
短 ， 但 如 果 有 很 多 衣服 要 洗 ， 春 吐 率 的 改进 可 以 减少 完成 所 有 工作 的 时 间 。 

如 果 所 有 步骤 所 需 的 时 间 相同 ， 并 且 有 足够 多 工作 需要 做 ， 那 么 流水 线 带 来 的 加 速 和 流 
水 线 中 的 步骤 数 一 致 ， 在 洗衣 例子 中 是 4 倍 : 洗涤 、 烘 干 、 折 又 和 取 走 。 流 水 化 的 洗衣 比 非 
流水 方式 快 了 4 倍 : 前 者 处 理 20 批 衣 服 所 需 的 时 间 是 处 理 一 批 衣服 所 需 时 间 的 5 倍 ， 而 后 
者 洗 完 20 批 衣 服 所 需 的 时 间 是 顺序 洗 完 一 批 衣服 的 20 倍 。 在 图 4-24 中 ， 处 理 速度 仅 提高 
了 2.3 倍 ， 因 为 图 中 只 显示 了 4 批 衣服 的 处 理 过 程 。 注 意图 4-24 中 流水 线 中 工作 负载 的 开始 
和 结束 阶段 ， 此 时 流水 线 未 完全 充满 。 当 任务 数量 达 不 到 流水 线 级 数 时 ,启动 和 结束 将 影响 
流水 线 的 性 能 。 在 本 例 中 ， 如 果 任 务 数量 远大 于 4， 那么 绝 大 多 数 时 候 流 水 线 都 将 是 充满 的 ， 
此 时 吞吐 率 的 提升 将 非常 接近 于 4 售 。 

同样 的 原理 也 可 以 应 用 到 处 理 器 中 , 我们 将 指令 的 执行 流水 化 。LEGv8 指令 通常 包含 如 
下 五 个 处 理 步 又 ; 

1. 从 指令 存储 器 中 取 指 。 

2. 读 寄存 器 并 对 指令 译 码 。 

3. 执行 操作 或 计算 地 址 。 


永远 不 要 浪费 时 间 。 
类 国 训 六 





流水 线 : 一 种 实现 技术 
能 使 多 条 指令 重合 执行 
与 装配 流水 线 类 似 。 
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4. 从 数据 存储 器 中 读 取 操作 数 (如 有 需要 )。 
5. 将 结果 写 回 寄存 器 (如 有 需要 )。 
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图 4-24 以 洗衣 店 为 例 类 比 流 水 线 。Ann 、Brain 、Cathy 和 Don 每 个 人 都 有 一 些 脏 克服 时 
清洗 、 烘 干 、 折 登 及 取 走 。 洗 衣 机 、 烘 干 机 、“ 折 全 机 ”和 “收纳 机 ”每 个 都 需要 
30 分 钟 来 完成 各 自 的 任务 。 顺 序 的 洗涤 方法 将 花费 8 小 时 的 时 间 洗 完 4 批 衣 服 ， 
而 流水 线 的 洗涤 方法 只 需要 3.5 小 时 。 该 图 通过 在 二 维 时 间 上 将 资源 复制 4 次 ， 
以 展示 不 同 批 次 任务 的 各 个 流水 段 ， 实 际 上 每 种 资源 只 有 一 个 


因此 ， 本 章 讨论 的 LEGv8 流水 线 具有 五 级 。 正 如 流水 线 能 加 速 洗衣 店 的 工作 一 样 ， 下 
面 的 例子 将 说 明 流 水 线 如 何 加 快 指令 的 执行 。 


| 例题 | 单 周期 性 能 与 流水 线性 能 . 

为 了 使 问题 具体 化 ， 我 们 首先 构造 一 个 流水 线 结构 。 本 例 以 及 本 章 的 其 余部 分 将 只 考虑 
7 条 指令 : 取 数 (LDUR)、 存 数 (STUR)、 加 (ADD)、 减 (SUB)、 与 (AND)、 或 (ORR)、 比 较 
为 0 分 支 (CBZ)。 

本 例 将 单 周 期 实现 (所 有 的 指令 都 在 一 个 时 钟 周期 内 完成 执行 ) 中 指令 执行 的 平均 
时 间 , 与 流水 实现 下 指令 执行 的 平均 时 间 进 行 对 比 。 假 设 本 例 中 主要 功能 单元 的 操作 
时 间 为 : 访问 指令 或 数据 存储 器 200ps，ALU 操作 200ps， 读 写 寄存 器 文件 100ps。 单 
周期 模型 中 ， 每 条 指令 执行 都 只 需 一 个 时 钟 周期 ， 因 此 需要 延展 时 钟 周期 以 满足 最 慢 的 
指令 。 
| 答案 | 图 4-25 给 出 了 7 条 指令 中 每 一 条 指令 执行 所 需 的 时 间 。 单 周期 设计 必须 支持 最 慢 
的 指令 ， 图 4-25 中 是 LDOR， 因 此 ， 每 条 指令 所 需 的 执行 时 间 是 800ps。 与 图 4-24 类 似 ， 
图 4-26 比较 了 三 条 取 数 指令 在 非 流 水 线 与 流水 线 方式 下 的 执行 过 程 。 在 非 流水 线 设计 中 ， 
第 一 条 与 第 四 条 指令 之 间 的 时 间 差 是 3 x 800ps=2400ps。 























取 数 (LDUR) 100ps | 200ps | 200ps | 100ps | 800ps 
存 数 (STUR) 100ps | 200ps | 200ps 700 ps 
i (ADD, SUB, AND, 100 ps 200 ps 100ps |600ps 
分 支 (CBZ) i00ps | 200ps | 500 ps 





























图 4-25 根据 各 功能 单元 所 需 时 间 计 算出 来 的 每 条 指令 的 总 执行 时 间 。 假 设 多 路 选择 器 、 控 制 
单元 ，PC 访问 以 及 符号 扩展 单元 都 没有 延迟 
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图 4-26 单 周 期 、 非 流水 线 执行 (上 ) 与 流水 线 执行 (下 )。 两 者 采用 相同 的 硬件 单元 ， 各 单元 处 理 时 
间 如 图 4-25 所 示 。 在 这 种 情况 下 ， 指 令 执行 达 4 倍 的 加 速 比 ， 从 800ps 降 到 200ps。 将 本 图 
与 图 4-24 比较 。 在 洗衣 的 例子 中 ,我 们 假设 所 有 步骤 需要 相同 的 时 间 。 如 果 烘 干 机 运行 得 最 
慢 ， 那 么 就 把 烘 干 时 间 设 定 为 各 步 又 需要 的 处 理 时 间 。 计 算 机 流水 线 各 级 所 需 的 时 间 也 受 限 
于 最 慢 的 步 又， 可 能 是 ALU 操作 或 存储 器 访问 。 同 时 我 们 假设 对 寄存 器 文件 的 写 操作 发 生 在 
时 钟 周期 的 前 半 段 ， 而 读 操作 发 生 在 后 半 段 ， 该 假设 贯穿 本 章 
流水 线 中 每 一 级 都 需要 一 个 时 钟 周期 ， 因 此 ， 时 钟 周期 必须 能 够 满足 最 慢 的 操作 的 执 
行 。 就 像 单 周 期 设计 中 最 坏 情 况 下 时 钟 周期 为 800ps 一 样 (虽然 有 些 指令 只 需 500ps)， 流 水 
线 设 计 中 时 钟 周期 也 必须 满足 最 坏 情况 200ps， 尽 管 有 些 步骤 只 需要 100ps。 流 水 线 能 够 提 
供 4 倍 的 性 能 提升 : 第 一 与 第 四 条 指令 之 间 的 时 间 差 缩短 为 3 x 200ps=600ps。 


上 面 讨论 的 流水 线性 能 加 速 可 以 归纳 为 一 个 公式 。 如 果 流 水 线 各 级 的 操作 平衡 ， 那 么 流 
水 线 处 理 器 上 的 指令 执行 时 间 为 在 理想 情况 下 ): 
四 指令 执行 时 间 二 和 
指令 执行 时 间 xxa- 一流 术 珊 顷 各 一 
即 在 理想 情况 且 有 大 量 指令 的 情况 下 ， 流 水 线 所 带 来 的 性 能 加 速 比 与 流水 线 的 级 数 近似 相 
等 。 例 如 一 个 五 级 流水 线 能 获得 的 加 速 比 接近 于 5- 
上 述 公式 说 明 ， 一 个 五 级 流水 线 将 提供 相对 非 流水 线 ( 800ps) 5 倍 的 性 能 提升 ， 即 
160ps 的 时 钟 周期 。 例 子 表明 ， 流 水 线 各 级 间 并 不 是 完全 平衡 的 。 此 外 ， 流水 线 引入 了 一 些 
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开销 ， 开 销 的 来 源 稍 后 解释 。 因 此 ， 流 水 线 处 理 器 中 每 条 指令 的 执行 时 间 会 超过 这 个 最 小 的 
可 能 值 ， 因 此 流水 线 能 够 获得 的 加 速 比 将 小 于 流水 线 的 级 数 。 

虽然 我 们 在 前 面 的 分 析 中 声称 能 将 指令 的 执行 速度 提高 4 倍 ， 但 在 本 例 中 三 条 指令 
的 总 执行 时 间 上 并 没有 反映 出 来 ， 实 际 获 得 的 加 速 比 为 2400ps/1400ps。 当 然 ， 这 是 因为 
执行 指令 的 数量 不 够 多 。 如 果 增 加 指令 数目 会 发 生 什 么 呢 ? 我 们 将 前 面 图 中 的 指令 增加 到 
1 000 003 条 ， 即 在 上 面 的 流水 线 例 子 中 加 入 1 000 000 条 指令 ， 每 条 指令 都 将 导致 整体 执行 
时 间 增 加 200ps。 故 整体 执行 时 间 变 为 1 000 000 x 200ps+1400ps， 即 200 001 400ps。 在 非 流 
水 线 的 例子 中 ， 我们 也 加 入 1 000 000 条 指令 ， 每 条 指令 的 执行 时 间 是 800ps， 因 此 总 的 执行 
时 间 为 1 000 000 x 800pst+2400ps， 即 800 002 400ps。 在 这 些 条 件 下 ， 真 实 程序 在 非 流水 线 
处 理 器 上 的 执行 时 间 相对 于 在 流水 线 处 理 器 上 的 执行 时 间 的 比值 ， 将 接近 于 两 者 指令 平均 执 
行 时 间 的 比值 : 























800 002 400ps R 800ps i 
200 001 400ps 200ps 
流水 线 通过 增加 指令 的 吞吐 率 而 不 是 减少 单条 指令 执行 的 时 间 来 提高 性 能 。 由 于 实际 程 
序 通常 都 会 执行 成 千 上 万 条 指令 ， 因 此 ， 指 令 的 吞吐 率 是 一 个 很 重要 的 度量 标准 。 


4.5.1 面向 流水 线 的 指令 集 设 计 


尽管 上 面 的 例子 只 对 流水 线 进行 了 简单 的 解释 ， 但 我 们 也 能 够 据 此 深入 了 解 面向 流水 线 
执行 设计 的 LEGv8 指令 集 。 

第 一 ， 所 有 的 LEGv8 指令 长 度 相 同 。 这 一 限制 简化 了 流水 线 第 一 级 的 取 指 与 第 二 级 的 
译 码 。 在 诸如 x86 之 类 的 指令 集中 ， 指 令 的 长 度 从 1 字 节 到 15 字 节 不 等 ， 这 给 流水 线 执行 
带 来 了 更 多 的 挑战 。 现 代 x86 体系 结构 的 实现 实际 上 是 将 x86 指令 转化 成 类 似 LEGv8 指令 的 
简单 操作 ， 然 后 再 将 这 些 简单 操作 流水 化 ， 而 不 是 直接 对 原始 的 x86 指令 流水 ! ( 见 4.10 节 ) 

第 二 ，LEGv8 只 有 很 少 的 几 种 指令 格式 ， 并 且 指 令 中 源 寄存 器 和 目的 寄存 器 字段 位 于 相 
同 的 位 置 。 

第 三 ，LEGv8 中 的 存储 器 操作 数 仅 出 现在 load 和 store 指令 中 。 这 一 限制 意味 着 可 以 
利用 执行 级 计算 存储 器 地 址 ， 接 着 在 下 一 级 访问 存储 器 。 如 果 可 以 直接 操作 内 存 中 的 操作 数 
(就 像 在 x86 中 那样 )， 那 么 第 三 级 与 第 四 级 将 会 扩展 为 地 址 计算 、 存 储 访问 和 执行 级 。 稍 后 
我 们 将 讨论 更 长 的 流水 线 有 什么 负面 作用 。 


4.5.2 ”流水线 冒险 


流水 线 会 出 现 这 样 一 种 情况 ， 即 在 下 一 个 时 钟 周 期 中 下 一 条 指令 不 能 执行 。 这 种 情况 称 
为 冒险 (hazard)， 有 三 种 类 型 。 

结构 冒险 

第 一 种 冒险 称 为 结构 冒险 ( structural hazard)， 指 硬件 不 支持 多 | 结构 冒险 ， 因 硬件 不 支持 
条 指令 在 同一 时 钟 周期 执行 。 在 洗衣 店 的 例子 中 ， 如 果 用 洗衣 烘 干 “| 待 执行 的 指 今 组 合 而 导 政 
一 体 机 代替 独立 的 洗衣 机 与 烘 干 机 ， 或 者 如 果 你 的 室友 正 忙于 其 他 人 
事情 而 不 能 帮助 你 将 衣服 打包 拿 走 ， 这 时 就 会 发 生 结构 冒险 。 如 果 
发 生 类 似 情况 ， 那 我 们 精心 构筑 的 流水 线 就 会 受到 破坏 。 

正如 前 面 所 述 ，LEGv8 的 指令 集 是 为 流水 线 设计 的 ， 这 使 得 设计 者 在 设计 流水 线 时 能 够 非 
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常 容易 地 避免 结构 冒险 。 假 设 只 有 一 个 存储 器 而 不 是 两 个 存储 器 "。 如 果 图 4-26 中 的 流水 线 还 有 
第 四 条 指令 ， 那 么 在 同一 个 时 钟 周期 内 ， 第 一 条 指令 正在 访问 存储 器 中 的 数据 ， 而 同时 第 四 条 指 
令 正 从 同一 个 存储 器 中 取出 指令 。 因 为 没有 两 个 独立 的 存储 器 ， 此 时 流水 线 就 会 发 生 结构 冒险 。 

数据 冒险 

当 一 个 步骤 必须 等 待 另 一 个 步骤 完成 才能 进行 ， 此 时 将 造成 流 “| 数据 冒险 : 也 称 为 流水 线 
水 线 暂停 ， 产 生 数 据 冒 险 ( data hazard)。 假 设 你 在 折 释 衣服 时 发 现 
有 一 只 袜子 找 不 到 与 之 配对 的 另 一 只 ， 此 时 你 可 能 会 跑 到 房间 里 ， | 残 插 仿 不 能 在 预定 的 时 名 
在 衣 橱 中 翻 找 男 一 只 袜子 。 很 明显 ， 当 你 在 寻找 的 时 候 ， 已 经 烘 干 | 周期 内 执行 。 
的 衣服 正在 等 待 折 释 ， 同 时 已 经 洗 洪 完 的 衣服 正在 等 待 烘 干 。 

在 计算 机 流水 线 中 ,数据 冒险 是 由 于 一 条 指令 依赖 于 之 前 还 在 流水 线 中 的 另 一 条 指令 而 
造成 的 (这 种 情况 在 洗衣 的 例子 中 并 不 存在 )。 例 如 ,假设 有 一 条 加 法 指令 ,后 面 紧 跟 一 条 
减法 指令 ,并且 减法 指令 要 使 用 加 法 指令 的 和 (X19): 


ADD X19, Xx0, Xl 
SUB X2, X19, X3 


没有 任何 干预 的 情况 下 ,数据 冒险 将 严重 阻碍 流水 线 。 加 法 指令 直到 第 五 步 才 能 写 回 结 
果 ， 这 意味 着 流水 线 中 将 浪费 三 个 时 钟 周期 。 

虽然 我 们 可 以 尝试 通过 编译 器 来 避免 这 些 冒 险 的 发 生 ， 但 结果 仍 很 难 令 人 满意 。 这 些 依 
赖 关系 经 常 发 生 ， 过 长 的 延迟 使 得 我 们 不 能 指望 编译 器 把 我 们 从 这 
种 困境 中 拯救 出 来 。 前 推 : 也 称 为 雳 路 。 一 种 

一 种 基本 的 解决 方法 是 基于 以 下 发 现 : 在 解决 数据 冒险 问题 之 前 。 | 解决 数据 目 险 的 方法 ， 从 
不 需要 等 待 指令 完全 执行 完毕 。 对 于 上 述 代码 序列 ， 一 旦 ALU 生成 | 风 革 全 ?和 芝 到 从 直人 
了 加 法 运算 的 结果 ， 就 可 以 将 该 结果 用 作 减 法 运算 的 一 个 输入 。 增 ”| 员 可 见 的 寄存 器 或 存储 器 
加 硬件 以 便 从 内 部 资源 中 提前 获得 缺失 的 项 目 称 为 前 推 (forwarding) | 中 取出 数据 。 
或 者 旁 路 (bypassing)。 


| 例题 | 两 条 指令 的 旁 路 用 
对 于 上 述 的 两 条 指令 ,说 明 哪 些 流水 级 应 当 通过 旁 路 连接 起 来 。 图 4-27 描述 了 流水 线 
数据 通路 的 五 级 。 与 图 4-24 中 的 洗衣 店 流水 线 类 似 ， 为 每 条 指令 列 出 一 套数 据 通路 。 




















800 1000 


时 间 200 400 600 
ADD X1, X2, X3 [是 一 L ve 一 医 


图 4-27 指令 流水 线 的 图 形 表示 ， 与 图 4-24 中 的 洗衣 店 流水 线 类 似 。 本 图 使 用 符号 来 代表 本 章 流水 线 
各 级 使 用 的 物理 资源 。 五 级 流水 线 的 符号 为 : IF 表示 取 指 级 ， 其 外 方 框 表示 指令 存储 器 ; ID 
表示 指令 译 码 / 寄存 器 文件 读 取 级 ， 虚 线 方 框 表示 读 取 寄 存 器 文件 ; EX 表示 指令 的 执行 级 ， 
其 符号 表示 ALU ; MEM 表示 存储 器 访问 级 ， 方 框 代表 数据 存储 器 ; WB 表示 写 回 级 ， 其 虚 
线 方 框 代表 写 寄存 器 文件 。 阴 影 表示 该 资源 被 指令 所 使 用 。 因 为 ADD 指令 不 需要 访问 数据 存 
储 器 ， 所 以 MEM 背景 为 白色 。 寄 存 器 文件 或 存储 器 右 半边 的 阴影 表示 其 内 容 在 此 步骤 中 被 
读 取 , 左 半边 的 阴影 表示 它们 在 此 步骤 中 被 写 人 。 因 此 ， 由 于 第 二 步 需要 读 取 寄 存 器 文件 ， 
ID 的 右 半边 有 阴影 ， 而 由 于 第 五 步 中 需要 写 人 寄存 器 文件 ，WB 的 左 半边 有 阴影 


日 ”指令 存储 器 和 数据 存储 器 合 为 一 个 。 一 一 译 者 注 




















图 
| 
S| 











290 








202 贰 4 草 

















| 答案 | 图 4-28 展示 了 旁 路 , 将 ADD 指令 执行 级 之 后 x1 中 的 值 与 SUB 指令 执行 级 的 输入 互 连 。 





程序 执行 顺序 时间 200 400 600 800 1000 


{ 按 指令 序 } 

ADD x1, x2, x3 [时 一 币 一 铺 : EM 
\ 

SUB X4, X1, Xx5 [| 导 一 [| MEM 蕊 | 


图 4-28 旁 路 的 图 形 表示 。 图 中 的 连接 表示 ADD 指令 EX 级 的 输出 与 SUB 指令 EX 级 的 输入 之 间 的 旁 
路 ,替换 掉 SUB 指令 第 二 级 从 寄存 器 xl 读 出 的 什 









































在 图 4-28 中 ,只 有 当 目 的 级 在 时 间 上 晚 于 源 级 时 旁 路 才 有 效 。 例 如 ， 从 第 一 条 指令 存 
储 器 访问 级 的 输出 到 下 一 条 指令 执行 级 的 输入 之 间 就 不 能 实现 旁 路 ， 因 为 那样 的 话 将 意味 着 
时 间 的 倒退 。 

旁 路 可 以 有 效 工作 ，4.7 节 将 对 此 进行 详细 描述 。 但 是 ， 旁 路 仍然 不 能 够 避免 所 有 的 流 
水 线 阻塞 。 例 如， 假设 第 一 条 指令 不 是 ADD， 而 是 装载 x1 寄存 器 。 根 据 图 4-28 可 以 想象 ， 
所 需要 的 数据 只 有 在 有 依赖 关系 的 第 一 条 指令 的 第 四 级 之 后 才 有 效 ， i 
这 对 于 SUB 指令 第 三 级 的 输入 来 说 太 迟 了 。 因 此 ， 如 图 4-29 所 示 ， | 一 关 钴 不 的 玫 据 骨 险 ， 示 
即使 采用 了 旁 路 机 制 ， 在 遇 到 取 数 - 使 用 型 数据 冒险 ( load-use data | 当 load 指 今 要 取 的 数 尚未 
hazard) 时， 流水 线 必须 阻塞 一 个 步 又。 图 中 显示 了 一 个 重要 的 流水 | 可 用 时 ， 另 一 条 指令 就 雷 
线 概念 ， 正 式 的 叫 法 是 流水 线 阻塞 (pipeline stal)， 或 经 常 被 昵称 为 “| 雪人 用 的 情况 。 





气泡 (bubble)。 我 们 经 常会 在 流水 线 中 看 到 阻塞 的 发 生 。4.7 节 展 示 | 流水 线 阻塞 ， 也 称 为 气 池 。 
如 何 处 理 这 种 复杂 情况 ， 即 采用 硬件 检测 和 阻塞 ， 或 者 采用 软件 重 
新 对 代码 排序 以 避免 取 数 - 使 用 型 流水 线 阻 塞 。 下 面 的 例子 将 对 此 | 种 阻塞 。 
进行 说 明 。 

程序 执行 顺序 时 间 000 1200 1400 








200 400 800 
【 按 指令 序 ) 
pan Py 


SUB X4, x1, x5 但- 和 | 


图 4-29 ” 当 一 条 尺 型 指令 之 后 紧 跟 一 条 需要 使 用 其 结果 的 load 指令 时 ， 即 使 使 用 了 旁 路 ， 仍 然 会 产生 
一 次 流水 线 阻塞 。 若 没有 该 阻塞 ， 从 存储 器 访问 级 的 输出 到 执行 级 的 输入 之 间 的 路 径 在 时 间 上 
是 倒退 的 ， 这 显然 是 不 可 能 的 。 事 实 上 ， 该 图 仅 是 一 个 简化 的 示意 图 ， 因 为 直到 减法 指令 被 取 
出 并 译 码 之 后 ， 我 们 才能 知道 是 否 需要 阻塞 。4.7 节 详 细 介绍 了 冒险 时 究竟 会 发 生 什么 




















日 读 后 写 胃 险 。 一 一 译 者 注 
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| 例题 | 重 排序 代码 以 避免 流水 线 阻塞 
考虑 下 面 这 段 C 代码 : 


| 
和 二 由 十 再 


下 面 是 这 段 C 代码 对 应 的 LEGv8 代码 ,假设 所 有 的 变量 都 在 存储 器 中 ， 且 以 X0 为 基 址 进 
行 寻 址 : 


LDUR Xl, [X0,#0] // Load b 
LDUR XxX2, [Xx0,#8] // Load e 





，X1 ,X4 #1 人 
STUR XxX5, [X0,#32] // Store 5 


试 找 出 上 述 代 码 段 中 存在 的 冒险 ， 并 对 指令 重新 排序 以 避免 流水 线 阻塞 。 

| 答案 | 两 条 ADD 指令 都 存在 冒险 ， 因 为 它们 都 依赖 于 上 一 条 LDUR 指令 。 注 意 ， 通 过 旁 路 
可 以 消除 其 他 一 些 潜在 的 冒险 ,包括 第 一 条 ADD 指令 对 第 一 条 LDUR 指令 的 依赖 ， 以 及 仍 与 
store 指令 相关 的 冒险 。 将 第 3 条 LDUR 指令 上 移 到 第 3 条 指令 的 位 置 可 以 消除 两 个 冒险 : 


LDUR Xl1, [Xx0,#0] 
LDUR xX2, [X0,#8] 
LOUR X4, [XO ,#16] 
ADD X3, Xl1,X2 

STUR = X3, [X0,#24] 
ADD X5, Xl1.X4 

STUR Xx5, [X0,#32] 


在 一 个 具有 旁 路 功能 的 流水 线 处 理 器 中 ， 重 排序 后 的 指令 序列 执行 时 间 要 比 原 序列 快 2 
个 时 钟 周期 。 机 


除了 4.5.1 节 提 到 的 三 种 特点 之 外 ， 旁 路 揭示 了 LEGv8 结构 的 另 一 个 特点 。 即 每 条 
LEGv8 指令 最 多 只 写 一 个 结果 并 在 流水 线 的 最 后 一 级 写 人 。 如 果 每 条 指令 有 多 个 结果 要 写 ， 
或 者 要 在 指令 执行 的 早期 写 结果 ， 都 将 使 旁 路 设计 变 得 很 困难 。 

畏 骨 “前 推 ”这 个 名 称 来 源 于 将 结果 从 前 面 的 指令 直接 传递 给 后 面 的 指令 的 思想 。" 过 
路 ”这 个 名 称 来 源 于 将 寄存 器 文件 中 的 结果 直接 传递 到 需要 的 单元 中 。 

控制 冒险 

第 三 种 冒险 称 为 控制 冒险 ( control hazard)， 当 决策 依赖 于 一 条 指令 的 结果 ， 而 其 他 指令 
正在 执行 时 发 生 。 

假设 洗衣 店 的 店员 接 到 了 一 个 令 人 高 兴 的 任务 一 一 为 一 支 足球 “| 控制 冒险 :也 称 为 分 支 冒 
队 清 洗 队 服 。 由 于 衣服 非常 脏 ， 我 们 需要 确定 洗 浇 剂 的 用 量 以 及 设 | 允 - 由 于 取出 的 可 人 并 不 
置 足 以 将 衣服 清洗 干净 的 水 温 ， 但 同时 要 保证 不 致 磨损 衣物 。 在 洗 4 
胡 店 流水 线 中 ,我 们 必须 等 到 第 二 阶段 检查 烘 干 的 衣服 时 才能 确定 | 各 庆生 相生 证 人 全 全 
是 否 需 要 改变 洗衣 机 的 设置 。 在 这 种 情况 下 应 如 何 处 理 呢 ? 预定 的 时 钟 周期 内 执行 。 

首先 有 两 种 办 法 可 以 解决 洗衣 店 的 控制 冒险 ， 计 算 机 中 也 可 以 
使 用 等 价 的 方法 。 

阻塞 (stall) : 在 第 一 批 衣服 被 烘 干 之 前 按 串 行 的 方式 操作 ， 并 且 重复 这 一 过 程 直到 找到 
正确 的 洗衣 设置 为 止 。 

这 种 保守 的 方法 当然 可 以 保证 正常 工作 ， 但 速度 较 慢 。 
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计算 机 中 的 决策 就 是 条 件 分 支 指令 。 注 意 ， 在 分 支 指令 取出 后 的 下 一 周期 ， 必 须 取 出 该 
分 支 指令 的 下 一 条 指令 。 然 而 ， 流 水 线 并 不 知道 下 一 条 真正 要 执行 的 指令 是 什么 ， 因 为 它 才 
刚刚 从 指令 存储 器 中 获得 分 支 指令 ! 与 洗衣 店 的 例子 一 样 ， 一 种 可 能 的 解决 方法 是 取出 分 支 
指令 后 立即 阻塞 流水 线 ， 直 到 流水 线 确定 分 支 指令 的 结果 并 确定 下 一 条 真正 要 执行 的 指令 的 
地 址 。 

假设 可 以 加 入 足够 多 的 硬件 使 得 在 流水 线 的 第 二 级 能 够 测试 寄存 器 、 计 算 分 支 地 址 并 更 
新 PC (详情 见 4.8 节 )。 增 加 这 些 额 外 的 硬件 ， 包 含 条 件 分 支 的 流水 线 如 图 4-30 所 示 。 如 果 
分 支 失败 ， 待 执行 的 指令 将 在 启动 之 前 被 阻塞 200ps 的 额外 时 钟 周期 。 





200 400 600 800 1000 1200 1400 
时 间 T T T T T T T 








程序 执行 顺序 
( 按 指令 序 ) 
ADD X4, X5, X6 "mee" 











CBZ X1,40 





200 ps 





ORR X7, X8, X9 




















图 4-30 流水 线 在 每 个 条 件 分 支 上 阻塞 是 控制 冒险 的 一 种 解决 方法 。 这 个 例子 假设 分 支 发 
生 ， 并 且 分 支 目标 地 址 处 是 一 条 ORR 指令 。 分 支 指令 之 后 会 插 和 人 一 个 周期 的 流水 
线 阻塞 ， 或 称 气泡 。 事 实 上 ， 阻 塞 的 产生 过 程 更 为 复杂 ，4.8 节 将 予以 说 明 。 这 种 
方法 对 性 能 的 影响 与 插入 气泡 是 一 样 的 


| 例题 | “分支 阻 塞 ”的 性 能 " 
评估 分 支 阻塞 对 CPI 的 影响 。 假 设 其 他 所 有 指令 的 CPI 都 为 1。 

| 答案 | 图 3-28 指出 在 SPEC int 2006 中 ， 分 支 指令 约 占 指令 执行 总 数 的 17%。 由 于 其 他 指 

令 的 CPI 都 为 1， 而 分支 指令 因 阻 塞 要 多 一 个 时 钟 周 期 ， 因 此 平均 CPI 为 1.17。 与 理想 的 情 

况 相 比 ， 速 度 下 降 1.17 倍 。 一 








如 果 不 能 在 流水 线 的 第 二 级 解决 分 支 问题 (这 种 情况 在 较 长 的 流水 线 中 经 常 发 生 )， 那 么 
条 件 分 支 导致 的 阻塞 将 导致 更 大 的 速度 下 降 。 对 很 多 计算 机 来 说 ， 这 种 方法 代价 太 大 因而 不 
被 采用 ， 因 此 也 促使 了 另外 一 种 消除 控制 冒险 的 方法 的 产生 ， 该 方法 使 用 了 第 1 章 中 所 提 到 
的 伟大 思想 : 

预测 (predict): 如 果 你 确定 已 知道 洗涤 那些 队 服 的 正确 流程 ， 那 么 预测 这 个 流程 将 正确 
工作 ， 并 在 等 待 第 一 批 衣服 烘 干 的 同时 开始 洗涤 第 二 批 衣 服 。 

预测 正确 时 ， 这 种 做 法 不 会 降低 流水 线 的 速度 。 但 如 果 预 测 错误 ， 那 么 预测 时 已 经 洗 的 
衣服 就 要 重新 洗涤 。 

计算 机 的 确 采 用 玄 测 的 方法 来 处 理 分 支 。 一 种 简单 的 方法 就 是 总 是 预测 分 支 不 发 生 。 
当 预 测 正确 时 ， 流 水 线 会 全 速 执行 。 只 有 当 条 件 分 支 发 生 时 ， 流 水 
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线 才 会 阻塞 。 图 4-31 给 出 了 一 个 例子 。 Eee 

We 冒险 的 方法 ， 假 设 条 件 分 

一 种 更 成 熟 的 分 支 预测 ( branch prediction) 方法 是 预测 一 些 分 支 的 结果 并 沿 假设 方向 执 

支 发 生 而 预测 另 一 些 分 支 不 发 生 。 如 在 洗衣 店 的 例子 中 ， 深 色 和 主 | 行 , 而 不 是 等 真正 的 分 支 
场 的 队 服 使 用 一 种 洗衣 设置 ， 而 浅 色 或 客场 的 队 服 则 使 用 另 一 种 设 | 结果 确定 后 才 开 始 执行 
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置 。 在 计算 机 编程 中 ， 循 环 体 底 部 的 分 支 总 是 会 跳 回 到 循环 体 的 顶部 。 因 为 这 种 分 支 总 是 发 
生 并 向 后 (向 分 支 之 前 的 指令 ) 跳 转 ， 因 此 我 们 可 以 预测 这 些 条 件 分 支 总 是 会 发 生 并 跳 转 到 
前 面 的 某 一 地 址 处 。 





程序 执行 顺序 各 
( 按 指令 序 ) 


ADD X4, X5, X6 | "Gen 图 We 加 


CBZX140 一 一 "| 
200 ps 


LDUR X3, [XO#400] 2006d | nemoton| [Rog] aby | ou [ee 


200 400 600 800 1000 1200 1400 
— T T T 









































程序 执行 顺序 NS 


( 按 指令 序 ) 


ADD X4. x5, X6 | newcton| | Reg| wu | | hm 
EM 
200 ps 


图 4-31 dr 上 面 的 图 显示 了 分 支 不 发 生 时 的 流水 线 ， 下 
面 的 图 是 分 支 发 生 时 的 流水 线 。 类 似 于 图 4-30， 这 种 插入 气泡 的 方式 是 对 实际 情况 的 一 种 简 
化 ， 至 少 对 紧 跟 分 支 指令 的 下 一 个 时 钟 周期 而 言 是 这 样 。4.8 节 将 给 出 其 中 的 细节 


这 些 刻 板 的 分 支 预测 方法 依赖 于 固定 的 行为 ， 没 有 考虑 特定 分 支 指令 本 身 的 特点 。 动 态 
硬件 预测 器 则 与 此 形成 了 鲜明 的 对 比 ， 它 根据 每 条 条 件 分 支 的 行为 进行 猜测 ， 并 且 在 程序 的 
整个 生命 周期 内 可 能 改变 分 支 预测 的 结果 。 仍 然 使 用 洗衣 店 类 比 ， 使 用 动态 预测 方法 ， 店 员 
将 会 观察 衣服 脏 的 程度 并 狂 测 一 种 洗衣 设置 ， 根 据 最 近 和 猜测 的 成 功 情况 调整 下 一 次 峙 测 。 

条 件 分 支 动态 预测 方法 的 一 种 比较 普遍 的 方式 是 保存 每 次 条 件 分 支 的 历史 记录 ， 然 后 
利用 近期 的 行为 来 预测 将 来 。 稍 后 我 们 将 看 到 ， 历 史记 录 的 数量 和 类 型 足够 多 时 ， 这 种 动态 
分 支 预测 的 方式 能 够 达到 90% 的 正确 率 ( 见 4.8 节 )。 当 预测 错误 时 ， 流 水 线 控制 必须 确保 
预测 错误 的 分 支 后 面 的 指令 执行 不 会 产生 实际 效果 ， 并 且 必 须 从 正确 的 分 支 地 址 处 重新 启动 
流水 线 。 在 洗衣 店 的 例子 中 ， 我 们 必须 停止 接受 新 的 任务 ， 从 而 可 以 重新 执行 预测 错误 的 
任务 。 

如 同 其 他 解决 控制 冒险 的 方法 一 样 ， 较 长 的 流水 线 会 使 问题 加 剧 ， 增 加 预测 错误 的 代 
价 。4.8 节 中 将 为 控制 冒险 的 解决 办 法 给 出 更 加 详细 的 描述 。 

| 精 解 解决 控制 冒险 还 有 第 三 种 方法 ， 称 为 延迟 决定 (delayed decision)。 在 洗衣 店 的 例 
子 中 , 每 当 要 决定 如 何 洗 衣服 时 ， 就 将 一 批 非 足球 队 的 衣服 放 进 洗衣 机 里 ， 同 时 等 待 球 服 被 
烘 干 。 只 要 有 足够 多 不 需要 决策 的 脏 衣 服 ， 这 种 方法 就 很 有 效 。 

在 计算 机 中 这 种 方法 被 称 为 延迟 分 支 ( delayed branch， 或 称 分 支 延迟 )， 也 是 MIPS 体 
系 结构 中 实际 使 用 的 方法 。 延 迟 的 分 支 总 是 顺序 执行 下 一 条 指令 ， 在 这 条 指令 还 迟 之 后 分 
支 才 发 生 。 由 于 汇编 器 会 自动 排列 指令 ， 以 获得 程序 员 需 要 的 分 支行 为 ， 因 此 这 对 于 MIPS 
的 汇编 程序 员 是 透明 的 。MIPS 软件 会 在 延迟 分 支 指令 之 后 放置 一 条 不 受 该 分 支 影响 的 指 
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令 。 发 生 的 分 支 仅 改变 这 条 安全 指令 之 后 的 指令 地 址 。 在 我 们 的 例子 中 ， 图 4-30 中 分 支 前 
的 RDD 指令 不 影响 分 支 ， 因 此 可 以 移 到 分 支 之 后 以 完全 隐藏 分 支 延 迟 。 因 为 当 分 支 延迟 较 
短 时 ， 延 迟 分 支 有 效 ， 所 以 没有 处 理 器 使 用 超过 一 个 时 钟 周期 的 延迟 分 支 。 对 更 长 的 分 支 延 
退 ， 一 般 都 会 使 用 基于 硬件 的 分 支 预测 。 


4.5.3 流水 线 概述 小 结 


流水 线 技术 利用 了 顺序 指令 流 中 指令 间 的 艾 涵 性 。 与 多 处 理 器 编程 不 同 ( 见 第 6 章 )， 
其 优势 在 于 它 对 程序 员 是 不 可 见 的 。 

在 本 章 下 面 几 节 中 ， 我 们 将 使 用 4.4 节 单 周期 实现 的 LEGv8 指令 子 集 覆 盖 流 水 线 的 概 
念 ， 并 且 给 出 一 种 简化 的 流水 线 版 本 。 然 后 讨论 愤 哟 线 可 能 引入 的 一 些 问题 以 及 在 一 些 典 型 
情况 下 所 能 获得 的 性 能 。 

如 果 你 想 集中 关注 更 多 流水 线 对 软件 和 性 能 的 影响 ， 那 么 你 已 经 具有 足够 的 背景 知识 ， 
可 以 直接 跳 到 4.10 节 。4.10 节 介 绍 了 一 些 高 级 流水 线 概念 ， 如 超标 量 、 动 态 调度 等 。4.11 节 
介绍 了 一 些 最 新 的 微 处 理 器 的 流水 线 。 

反之 如果 你 想 深 入 了 解 流水 线 的 实现 方式 以 及 如 何 处 理 冒险 现象 ， 可 以 接着 阅读 4.6 
节 中 流水 线 数据 通路 的 设计 以 及 基本 的 控制 。 在 4.6 节 的 基础 上 ， 你 可 以 在 4.7 节 中 学 习 旁 
路 和 阻塞 的 实现 。 在 4.8 节 中 ， 你 可 以 学 习 分 支 冒险 的 处 理 方法 。 最 后 ，4.9 节 介 绍 了 如 何 处 
理 异 常 。 

上 汪 彤 称 速 必 能 ; 除了 存储 系统 以 外 ， 流 水 线 的 有 效 操作 是 决定 处 理 器 CPI 及 其 性 能 最 重 
要 的 因素 。 芷 如 我 们 将 在 4.10 节 着 到 的 那样 ， 现 代 多 发 射流 水 线 处 理 内 的 性 能 非常 复杂 ， 相 
对 简单 流水 线 处 理 器 而 言 需要 理解 更 多 的 问题 。 不 管 怎样 ， 结 构 冒 险 、 数 据 冒 险 和 控制 冒险 
在 简单 流水 线 处 理 器 和 更 复杂 的 流水 线 处 理 器 中 都 是 非常 重要 的 。 

对 现代 流水 线 而 言 ， 结 构 冒 险 经 常 出 现在 浮 点 单元 附近 ， 因 为 浮 点 单元 通常 不 能 完全 
流水 化 。 而 控制 冒险 更 多 地 出 现在 整数 程序 中 ， 因 为 整数 程序 中 条 件 分 支 和 预测 的 分 支出 现 
的 频率 更 高 。 数 据 冒 险 在 整数 和 浮 点 程序 中 都 可 能 成 为 性 能 瓶颈 。 通 常 ， 浮 点 程序 中 的 数据 
冒险 更 容易 处 理 ， 因 为 条 件 分 支出 现 的 频率 更 低 ， 并 且 更 多 规则 的 存储 器 访问 使 得 编译 器 能 
够 尝试 调度 指令 以 避免 冒险 。 而 整数 程序 中 涉及 大 量 的 指针 ， 规 则 的 存储 器 访问 更 少 ， 
此 编译 器 优化 就 要 困难 一 些 。 在 4.10 节 中 我 们 将 看 到 ， 有 很 多 编译 器 和 硬件 技术 通过 调度 
(schedule) 来 减少 数据 间 的 依赖 。 

户 党 当归 增加 了 同时 执行 的 指令 数目 以 及 指令 开始 和 结束 的 


速率 。 流 水 线 并 不 能 减少 完成 单条 指令 的 时 间 (也 称 为 延迟 (latency))。 | 亚 退 :流水线 的 组 数 世 者 


执行 过 程 中 两 条 指令 间 的 


例如 ， 一 个 五 级 流水 线 仍然 需要 5 个 时 钟 周 期 来 完成 一 条 指令 。 若 用 | 级 教 ， 
第 1 章 的 术语 来 描述 ， 流 水 线 提高 了 指令 的 吞吐 率 (throughput) 而 不 
是 减少 了 单条 指令 的 执行 时 间 (execution) 或 延迟 (latency)。 

对 流水 线 的 设计 者 而 言 ， 指 令 集 既 可 能 使 设计 简单 化 ， 也 可 能 更 复杂 。 流 水 线 设计 者 必 
须 解决 结构 冒险 、 控 制 冒险 和 数据 冒险 。 分 支 赋 测 、 旁 路 机 制 能 够 在 保证 得 到 正确 结果 的 前 
提 下 提高 计算 机 的 运行 速度 。 
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4.6 流水 线 数据 通路 及 其 控制 


图 4-32 以 流水 级 的 形式 给 出 了 4.4 节 中 单 时 钟 周 期 的 数据 通 。 | 看 起 来 很 多 ， 其 实 不 然 。 
路 。 将 指令 划分 为 五 个 阶段 意味 着 采用 五 级 流水 线 ， 也 就 意味 着 在 “| Talwah Bankhead, remark to 
任何 一 个 时 钟 周 期 内 ， 最 多 有 五 条 指令 在 执行 。 因 此 ,我们 必须 把 数 【Aeroder Weoleor 1922 
据 通路 分 为 五 个 部 分 ， 每 一 部 分 用 与 之 对 应 的 指令 执行 阶段 来 命名 。 

1.IF: 取 指令 。 

2. ID: 指令 译 码 及 读 寄存 器 文件 。 

3. EX: 执行 或 计算 地 址 。 

4. MEM: 访问 数据 存储 器 。 

5. WB: 写 回 。 





IF: Instruction fetch MEM: Memory access WB: Write back 


EX: Execute/ 
address calculation 
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图 4-32 4.4 节 中 单 时 钟 周期 的 数据 通路 (与 图 4-17 类 似 )。 指 令 执行 的 每 一 步 可 以 从 左 到 右 映射 到 数据 
通路 中 。PC 的 更 新 以 及 写 回 级 是 唯一 的 例外 (图 中 以 灰色 表示 )， 它 们 将 ALU 的 结果 或 存储 器 
的 数据 发 送 到 左边 的 寄存 器 文件 中 (我 们 通常 使 用 灰色 线 表示 控制 ， 但 在 这 里 表示 数据 线 ) 
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图 4-32 的 五 个 部 分 大 致 与 数据 通路 相符 : 指令 与 数据 随 着 执行 过 程 从 左 到 右 依次 通过 
五 级 流水 线 。 正 如 洗衣 店 的 例子 一 样 ， 衣 服 沿 着 一 条 工作 线 依次 完成 清洗 、 烘 干 和 整理 ， 而 
不 会 反 向 移动 。 

然而 ， 从 左 到 右 的 指令 流 中 有 两 个 例外 : 

e 写 回 级 , 将 结果 写 回 数据 通路 中 间 的 寄存 器 文件 中 。 

e 选择 下 一 个 PC 值 时 ， 在 递增 的 PC 和 MEM 级 的 分 支 地 址 间 进 行 选择 。 

从 右 向 左 的 数据 流 不 会 影响 当前 指令 ， 这 些 反 向 的 数据 移动 只 会 影响 流水 线 中 后 面 的 指 
令 。 需 要 注意 的 是 ， 第 一 个 从 右 到 左 的 数据 流 会 导致 数据 冒险 ， 而 第 二 个 会 导致 控制 骨 险 。 

一 种 展示 流水 线 执行 的 方法 是 假定 每 一 条 指令 都 有 独立 的 数据 通路 ， 然 后 把 这 些 数据 通 
路 放 在 同一 时 间 轴 上 表示 出 它们 之 间 的 关系 。 图 4-33 在 同一 时 间 轴 上 表示 了 图 4-26 中 指令 
执行 过 程 中 各 自 的 数据 通路 。 图 4-33 展示 了 使 用 图 4-32 中 的 数据 通路 执行 指令 的 情况 。 
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图 4-33 ”使 用 图 4-2 中 单 时 钟 周期 数据 通路 的 指令 执行 过 程 (假定 以 流水 线 方式 执行 )。 与 
图 4-27 到 图 4-29 类 似 ， 本 图 假设 每 一 条 指令 都 有 独立 的 数据 通路 ， 并 根据 使 用 情 
况 将 相应 的 部 分 涂 上 阴影 。 与 这 些 图 不 同 的 是 ,流水 线 的 每 一 级 都 用 该 级 使 用 的 
物理 资源 标示 ， 与 图 4-32 中 数据 通路 的 各 部 分 对 应 。IM 表示 指令 存储 器 以 及 取 
指 级 的 PC，Reg 代表 指令 译 码 (ID) / 寄存 器 文件 读 取 级 的 寄存 器 文件 和 符号 扩展 
单元 等 。 为 了 保持 正确 的 时 序 ， 这 种 形式 的 数据 通路 将 寄存 器 文件 从 逻辑 上 划分 
为 两 个 部 分 : 寄存 器 读 取 级 所 读 的 寄存 器 和 写 回 ( WB) 级 所 写 的 寄存 器 。 这 种 复 
用 在 图 中 表示 为 : 在 ID 级 ， 当 寄存 器 文件 没有 被 写 人 时 ， 将 没有 阴影 的 寄存 器 文 
件 的 左 半 部 分 用 虚线 表示 ; 而 在 WB 级 ， 当 寄存 器 文件 没有 被 读 取 时 ， 将 没有 阴 
影 的 右边 部 分 用 虚线 表示 。 与 以 前 一 样 ， 假 设 寄存 器 文件 在 时 钟 周期 的 前 半 部 分 
写 人 ， 而 在 后 半 部 分 读 取 








图 4-33 中 看 似 三 条 指令 需要 三 条 数据 通路 。 事 实 上 ， 我 们 可 以 增加 寄存 器 ， 从 而 让 单 
个 数据 通路 中 的 部 件 在 指令 执行 过 程 中 被 共享 。 

例如 ， 如 图 4-33 所 示 ， 指 令 存储 器 只 在 每 条 指令 五 个 步骤 中 的 一 个 步骤 中 用 到 ， 因 此 
允许 指令 存储 器 在 其 他 四 步 中 被 后 续 的 指令 共享 。 为 了 在 其 他 四 步 中 保持 指令 的 值 ， 从 指 
令 存 储 器 中 读 出 的 值 必须 保存 在 寄存 器 中 。 类 似 的 ， 对 于 流水 线 中 的 每 一 级 ， 我 们 必须 在 
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图 4-33 中 各 级 间 的 分 割 线 处 加 入 寄存 器 。 再 回 到 洗衣 店 的 类 比 中 ， 两 个 步骤 间 应 该 放置 一 
个 篮子 用 来 存放 下 一 步 的 衣服 。 

图 4-34 描述 了 流水 线 的 数据 通路 ， 其 中 流水 线 寄存 器 突出 表示 。 在 每 个 时 钟 周期 ， 所 
有 指令 都 会 从 一 个 流水 线 寄 存 器 传递 到 另 一 个 流水 线 寄 存 器 中 。 寄 存 器 以 被 其 分 隔 的 两 级 来 
命名 , 如 正和 ID 之 间 的 流水 线 寄 存 器 称 为 IF/ID。 
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图 4-34 ”图 4-32 中 数据 通路 的 流水 线 版 。 灰 色 标 识 的 流水 线 寄存 器 将 流水 线 的 各 级 分 开 ， 并 以 其 分 隔 
的 级 来 命名 。 例 如 ， 第 一 个 标记 为 IID ， 因 为 该 寄存 器 将 指令 取 指 和 译 码 级 分 开 。 寄 存 器 必 
须 足 够 宽 以 存储 所 有 穿 过 它 的 数据 。 例 如 ， 因 为 IF/ID 寄存 器 必须 为 96 位 宽 ， 以 保存 从 存储 
器 中 提取 出 的 32 位 8 指令 以 及 递增 的 64 位 PC 地 址 。 我 们 将 在 本 章 中 和 逐渐 增加 这 些 寄存 器 的 
宽度 ,但 目前 另外 三 个 流水 线 寄存 器 的 宽度 分 别 是 256 位 、193 位 和 128 位 


注意 ， 写 回 级 后 面 没有 流水 线 寄存 器 。 所 有 指令 都 会 更 新 处 理 器 中 的 某 些 状态 ， 如 寄存 器 
文件 、 存 储 器 或 PC， 因 此 各 个 流水 线 寄存 器 对 于 更 新 后 的 状态 来 说 是 多 余 的 。 例 如 ，load 指令 
将 结果 放 人 32 个 寄存 器 中 的 某 一 个 ， 后 续 任 何 需要 此 数据 的 指令 只 需 简单 读 取 相应 的 寄存 器 。 

当然 ， 每 条 指令 都 会 更 新 PC， 不 管 是 通过 递增 PC 还 是 将 其 设置 为 分 支 目 标 地 址 。PC 
可 被 视 为 一 个 流水 线 寄 存 器 : 给 流水 线 的 IF 段 提供 数据 。 与 图 4-34 中 那些 打上 阴影 的 流水 
线 寄 存 器 不 同 ，PC 是 可 见 体系 结构 状态 的 一 部 分 ， 发生 异常 时 其 内 容 必须 被 保存 下 来 ， 而 
流水 线 寄存 器 的 内 容 可 被 丢弃 。 以 洗衣 店 的 例子 类 比 ， 你 可 以 把 PC 看 成 洗涤 步骤 之 前 装 脏 
衣服 的 篮子 。 

为 了 描述 流水 线 如 何 工作 ， 本 章 将 使 用 一 系列 图 片 以 时 间 推 进 的 次 序 来 表示 这 些 操作 。 
这 些 内 容 需 要 一 定时 间 去 理解 。 但 不 要 害怕 ， 这 些 图 片 实际 上 比 看 上 去 要 容易 理解 ， 因 为 你 
可 以 对 比 这些 图 片 ， 观 察 每 个 时 钟 周期 内 所 发 生 的 变化 。4.7 节 描述 了 流水 线 指 令 间 发 生 数 
据 冒 险 的 情况 ， 这 里 暂时 忽略 。 

图 4-35 一 图 4-37 是 第 一 个 系列 ， 展 示 了 load 指令 在 通过 流水 线 的 五 级 时 数据 通路 的 
活跃 部 分 。 先 讨论 load 指令 是 因为 该 指令 刚好 使 用 了 流水 线 的 五 个 阶段 。 图 4-27 一 图 4-29 
中 ， 当 寄存 器 或 存储 器 被 读 取 时 ， 其 右 丰 部 分 被 突出 显 式 ; 被 写 入 时 ， 左 半 部 分 被 突出 显示 。 


日 原 书 为 64 位 ， 应 为 笔 误 - 一 一 译 者 注 
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图 4-35 IF 和 1D : 一 条 指令 在 流水 线 中 的 第 一 级 和 第 二 级 ， 图 4-34 中 数据 通路 的 活跃 部 分 突出 显示 。 
这 种 突出 显示 与 图 4-27 相同 。 正 如 4.2 节 中 介绍 的 那样 ， 读 写 寄存 器 并 不 会 发 生 冲突 ， 因 为 
寄存 器 内 容 的 变化 只 在 时 钟 的 边缘 发 生 。 虽 然 load 只 需要 第 二 级 中 顶部 的 寄存 器 ， 但 多 做 一 
些 潜在 的 工作 并 没有 什么 坏处 ， 因 此 将 常数 进行 符号 扩展 并 将 两 个 寄存 器 的 值 都 读 人 ID/EX 
流水 线 寄 存 器 中 。 虽 然 我 们 并 不 需要 三 个 操作 数 ， 但 是 保留 全 部 三 个 操作 数 可 以 简化 控制 


我 们 以 每 幅 图 中 活跃 的 流水 线 级 的 名 字 展 示 LDUR 指令 的 执行 。 五 级 如 下 : 

1. 取 指 令 : 图 4-35 的 顶部 表示 使 用 PC 中 的 地 址 从 存储 器 中 读 取 指令 ， 然 后 放 入 IF/ID 
流水 线 寄存 器 中 。PC 地 址 加 4， 然后 写 回 PC 以 便 为 下 个 时 钟 周 期 做 好 准备 。 增 加 后 的 地 址 
同时 也 存在 IF/ID 流水 线 寄存 器 中 以 备 后 面 的 指令 (如 CBz) 使 用 。 计 算 机 并 不 知道 所 取 指 
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令 的 类 型 ， 所 以 必须 考虑 到 所 有 可 能 的 指令 ， 并 沿 流水 线 传递 所 有 可 能 有 用 的 信息 。 

2. 指令 译 码 及 读 寄存 器 文件 : 图 4-35 底部 显示 了 IF/ID 流水 线 寄存 器 的 指令 部 分 ， 包 括 
一 个 立即 数字 段 (符号 扩展 为 64 位 ) 和 两 个 寄存 器 号 (用 于 读 取 寄存 器 )。 这 三 个 值 ? 和 增加 
的 PC 地 址 一 起 存 人 ID/EX 流水 线 寄存 器 中 。 这 里 同样 必须 传递 下 一 个 时 钟 周期 中 任何 指令 
可 能 需要 的 所 有 信息 。 

3. 执行 或 计算 地 址 : 图 4-36 表示 load 指令 从 ID/EX 流水 线 寄存 器 中 读 取 一 个 寄存 器 并 
符号 扩展 立即 数 ， 然 后 使 用 ALU 将 它们 相 加 ， 和 存 人 EX/MEM 流水 线 寄存 嚣 中。 

4. 访问 数据 存储 器 : 图 4-37 的 顶部 表示 load 指令 使 用 从 EX/MEM 流水 线 寄存 器 中 得 到 
的 寄存 器 中 的 地 址 读 取 数 据 存储 器 ， 并 将 数据 存 人 MEM/WB 流水 线 寄存 器 中 。 

5. 写 回 : 图 4-37 的 底部 给 出 了 最 后 一 个 步骤 ， 从 MEM/WB 流水 线 寄存 器 中 读 取 数据 并 
将 其 写 到 图 中 部 的 寄存 器 文件 中 。 












































图 4-36 EX : load 指令 在 流水 线 中 的 第 三 级 ， 该 流水 级 所 使 用 的 数据 通路 部 件 突出 显示 。 将 寄存 器 的 
值 与 符号 扩展 后 的 立即 数 相 加 ， 和 放 人 EX/MEM 流水 线 寄存 器 中 


load 指令 的 执行 过 程 表 明 ， 任 何 后 面 流水 线 级 可 能 用 到 的 信息 必须 通过 该 级 的 流水 线 寄 
存 器 传递 。store 指令 的 执行 类 似 ， 也 需要 将 信息 传递 给 后 面 的 级 。 下 面 是 store 指令 的 五 个 
流水 级 : 

1. 取 指 令 : 根据 PC 中 的 地 址 从 存储 器 中 读 出 指令 ， 并 放 人 IF/ID 流水 线 寄存 器 中 。 这 
个 步骤 发 生 在 指令 译 码 之 前 ， 因 此 图 4-35 中 顶端 部 分 对 load 指令 和 store 指令 都 适用 。 

2. 指令 译 码 及 读 寄 存 器 文件 : IF/ID 流水 线 寄存 器 中 的 指令 提供 了 两 个 待 读 寄存 器 的 寄 
存 器 号 以 及 符号 扩展 的 立即 数 操作 数 。 读 出 的 两 个 寄存 器 值 和 符号 扩展 后 的 64 位 立即 数 都 
存放 在 ID/EX 流水 线 寄存 器 中 。 图 4-35 中 的 底部 既 可 以 描述 load 指令 也 可 以 描述 store 指令 
第 二 个 流水 级 中 的 操作 。 由 于 此 时 尚 不 知道 要 执行 的 指令 类 型 ， 因 此 所 有 指令 都 要 执行 这 两 
个 步 又。( 尽 管 store 指令 在 该 级 中 用 Rt 字段 读 取 第 二 个 寄存 器 ,但 是 该 流水 线 图 中 并 没有 展 
示 这 一 细节 ， 因 此 可 以 使 用 同一 张 图 表示 load 和 store 指令 的 这 一 级 。) 


日 扩展 后 的 64 位 立即 数 , 根据 寄存 器 号 从 寄存 器 文件 中 读 出 的 寄存 器 内 容 。 一 一 译 者 注 
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图 4-37 MEM 和 WB : load 指令 在 流水 线 中 的 第 四 级 和 第 五 级 ， 将 图 4-34 数据 通路 中 该 流水 段 使 用 
的 部 分 突出 显示 。 利 用 EX/MEM 流水 线 寄存 器 中 包含 的 地 址 读 取 数据 存储 器 ， 并 将 读 取 的 数 
据 放 入 MEM/WB 流水 线 寄存 器 中 ， 然 后 从 MEM/WB 流水 线 寄存 器 中 读 取 数据 并 写 回 数据 通 
路 中 部 的 寄存 器 文件 。 注意: 该 图 中 有 一 个 错误 ,将 在 图 4-40 中 修复 





3. 执行 或 计算 地 址 : 图 4-38 描述 了 第 三 个 步骤 ， 有 效 地 址 存放 在 EX/MEM 流水 线 寄存 
器 中 。 

4. 访问 数据 存储 器 : 图 4-39 的 顶端 描述 了 写 人 存储 器 的 数据 。 注 意 ， 保 存 待 写 数据 的 寄 
存 器 在 较 早 的 流水 级 中 已 经 读 出 并 存放 在 ID/EX 中 。 使 数据 在 MEM 级 有 效 的 唯一 方法 是 ， 
在 EX 级 将 数据 放 人 EX/MEM 流水 线 寄存 器 中 ， 类 似 于 将 有 效 地 址 放 入 EX/MEM 中 。 
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5. 写 回 : 图 4-39 的 底部 描述 了 store 指令 的 最 后 一 步 。 该 指令 在 写 回 级 什么 都 不 做 。 由 
于 store 指令 后 的 每 一 条 指令 都 已 经 进入 流水 线 中 ， 所 以 无 法 加 速 这 些 指令 。 因 此 ， 任 何 一 
条 指令 都 必须 经 过 流水 线 的 每 一 个 步骤 ， 即 使 在 这 个 步骤 中 该 指令 没有 任何 实际 操作 ， 因 为 
后 面 的 指令 已 经 按照 最 大 的 速率 在 流水 线 中 执行 。 






























































图 4-38 EX : store 指令 在 流水 线 中 的 第 三 级 。 与 图 4-36 中 load 指令 的 第 三 个 流水 级 不 同 ， 本 图 中 第 
二 个 寄存 器 中 的 数据 被 装 入 EX/MEM 流水 线 寄存 器 中 ， 以 便 在 下 一 级 中 使 用 。 虽 然 总 是 将 第 
二 个 寄存 器 中 的 数据 装 人 EX/MEM 流水 线 寄存 器 中 并 不 会 产生 危害 ， 但 为 了 使 流水 线 更 易于 
理解 ,我们 只 在 存储 指令 中 写 人 第 二 个 寄存 器 的 内 容 


存储 指令 再 次 说 明 在 流水 线 中 若 要 将 信息 从 前 面 的 流水 级 传递 给 后 面 的 流水 级 ， 那 么 必 
须 将 信息 放 入 流水 线 寄存 器 中 ， 否 则 当下 一 条 指令 进入 该 流水 级 时 这 些 信息 将 会 丢失 。 对 于 
store 指令 ， 需 要 将 ID 级 读 出 的 一 个 寄存 器 中 的 内 容 传递 给 MEM 级 供 写 人 存储 器 。 这 些 数 
据 首先 放 在 ID/EX 流水 线 寄存 器 中 ， 然 后 传送 到 EX/MEM 流水 线 寄存 器 中 。 

load 和 store 指令 揭示 了 另 一 个 重要 特性 ， 即 数据 通路 中 的 每 一 个 逻辑 单元 (如 指令 
存储 器 、 寄 存 器 读 取 端 口 _ALU、 数 据 存储 器 以 及 寄存 器 写 端口 ) 都 只 能 在 一 个 流水 级 中 
使 用 ， 否 则 就 会 产生 结构 冒险 (4.5.2 节 )。 因 此 ， 这 些 单元 及 其 控制 可 以 和 一 个 流水 级 相 
关联 。 

现在 我 们 可 以 修复 load 指令 设计 中 的 错误 了 。 你 发 现 这 个 错误 了 吗 ? 在 load 指令 的 最 
后 一 级 ， 哪 个 寄存 器 发 生变 化 了 呢 ? 更 确切 地 说 ， 哪 条 指令 提供 了 写 寄存 器 号 呢 ?1IF/ID 流 
水 线 寄存 器 中 的 指令 提供 了 写 寄 存 器 号 ， 但 这 条 指令 发 生 在 load 指令 之 后 ! 
因此 ， 我 们 必须 保存 load 指令 中 的 目的 寄存 器 编号 。 就 像 store 指令 将 寄存 器 的 内 容 从 
ID/EX 传送 到 EX/MEM 中 以 便 在 MEM 级 使 用 一 样 ，load 指令 必须 把 寄存 器 号 从 ID/EX 经 
过 EX/MEM 传送 到 MEM/WB 流水 线 寄存 器 中 ,以便 在 WB 级 使 用 。 另 一 种 传递 寄存 器 号 
的 方法 是 共享 流水 线 的 数据 通路 ， 我 们 需要 在 正 级 中 保存 读 取 的 指令 ， 因 此 每 一 个 流水 线 
寄存 器 都 要 保存 当前 和 后 续 流水 级 所 需 的 部 分 指令 。 
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图 4-39 MEM 和 WB : store 指令 在 流水 线 中 的 第 四 级 和 第 五 级 。 在 第 四 级 ，store 指令 
将 数据 写 人 数据 存储 器 中 。 注 意 ,， 数 据 来 自 于 EX/MEM 流水 线 寄存 器 ， 并且 
MEM/WB 流水 线 寄存 器 没有 变化 。 一 旦 数据 写 人 存储 器 ，store 指令 就 完成 功 
能 ， 所 以 store 指令 的 第 五 级 中 没有 任何 实际 操作 


图 4-40 给 出 了 正确 的 数据 通路 ， 首 先 将 写 寄 存 器 号 传送 到 ID/EX 寄存 器 ， 然 后 送 到 
EX/MEM 寄存 器 ， 最 后 送 到 MEM/WB 寄存 器 。 在 WB 级 使 用 寄存 器 号 指定 要 写 人 的 寄存 
器 。 图 4-41 是 正确 数据 通路 的 综合 表示 ， 将 图 4-35 到 图 4-37 中 load 指令 五 个 流水 级 中 要 
使 用 的 硬件 都 标注 出 来 。4.8 节 将 解释 如 何 使 分 支 指令 按期 望 的 方式 工作 。 





















































图 4-40 可 正确 执行 load 指令 的 流水 线 数 据 通路 。 写 寄存 器 号 与 数据 一 起 从 MEM/WB 
流水 线 寄存 器 中 得 到 。 寄 存 器 号 从 ID 流水 段 开始 传递 直到 到 达 WB 流水 线 寄 
存 器 ， 最 后 三 个 流水 线 寄存 器 上 增加 了 5 位 





图 4-41 load 指令 五 级 流水 线 使 用 的 数据 通路 (图 4-40 ) 


4.6.1 图 形 化 表示 的 流水 线 


流水 线 技 术 难 以 掌握 ， 因 为 在 每 一 个 时 钟 周期 内 同时 会 有 很 多 指令 在 一 个 数据 通路 中 执 
行 。 为 了 帮助 大 家 理解 流水 线 ， 有 两 种 基本 的 流水 线 图 形 化 表示 方法 ， 即 多 时 钟 周期 流水 线 
图 (如 图 4-33 ) 和 单 时 钟 周期 流水 线 图 (如 图 4-35 一 图 4-39 )。 多 时 钟 周期 图 更 简单 ， 但 不 
包括 所 有 的 细节 。 例 如 ， 下 面 以 五 条 指令 构成 指令 序列 : 


LDUR X10, [X1,#40] 
SUB X11, X2. xX3 
ADD X12,X3,X4 
LDUR X13, [X1,#48] 
ADD X14, Xx5, x6 
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图 4-42 给 出 了 这 些 指令 的 多 时 钟 周 期 流水 线 图 。 在 这些 图 中 ， 时 间 从 左 向 右 、 指 令 从 
上 到 下 推进 ， 类似 于 图 4-24 中 的 洗衣 店 流水 线 表示 。 沿 着 指令 轴 分 别 表示 各 流水 级 及 其 所 
占据 的 时 钟 周 期 。 这 些 数据 通路 以 图 形 化 的 方式 表示 了 流水 线 的 五 个 级 别 ， 但 用 方 框 来 命 
名 每 个 流水 线 级 也 是 很 好 的 表示 方法 。 图 4-43 给 出 了 一 个 更 加 传统 的 多 时 钟 周期 流水 线 图 。 
注意 ， 图 4-42 中 描述 了 每 一 级 中 用 到 的 物理 资源 ， 而 图 4-43 使 用 了 每 一 级 的 名 字 。 


时 间 ( 以 时 钟 周期 计 ) 
cecil CC2 cc3 CC4 ces cc6 CC7 CC8 





CC9 


程序 执行 顺序 
( 按 指令 序 ) 


本 
LDUR X10, [X1#40] | IM eg|_| 








SUB X11, X2, X3 由 





ADD X12, X3, X4 








LDUR X13, [X1,448] 











ADD X14, X5, X6 
M 





图 4-42 五 条 指令 的 多 时 钟 周期 流水 线 图 。 此 种 流水 线 图 在 一 幅 图 中 表示 了 指令 序列 的 完整 执行 过 程 。 
指令 从 上 到 下 按照 执行 的 顺序 排列 ， 时 钟 周期 从 左 向 右 推进 。 与 图 4-27 不 同 ， 本 图 给 出 了 每 
一 级 间 的 流水 线 寄存 器 。 图 4-43 给 出 了 绘制 此 图 的 传统 方法 


时 间 ( 以 时 钟 周期 计 ) 
cci1 CC2 CC3 CC4 CC5 CC6 CC7 CCa8 CC9 



























程序 执行 顺序 

( 按 指令 序 ) 

LDUR X10, [X1.#401| "Stuotion | Instruction | Execution | Data。 | write-back 

SUB X11, X2, X3 0 en Execution ee Write-back 

ADD X12, x3, X4 Mention | Instruction | Execution | ata. | Writeback 

LDUR X13, [X1.#48] pe Execution i Write-back 





ADD X14, X5, X6 

















4-43 图 4-42 中 五 条 指令 的 传统 多 时 钟 周期 流水 线 图 
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单 时 钟 周期 流水 线 图 给 出 了 一 个 时 钟 周期 内 整个 数据 通路 的 状态 ， 通 常 流 水 线 中 的 所 
有 五 条 指令 都 在 各 流水 级 上 做 相应 的 标记 。 这 种 流水 线 图 描述 了 在 每 个 时 钟 周期 内 流水 线 中 
所 发 生 事件 的 细节 。 通 常 ， 可 使 用 一 组 单 时钟 周 期 流水 线 图 来 表示 在 一 系列 时 钟 周期 内 的 
流水 线 操作 ， 而 使 用 多 时 钟 周期 流水 线 图 对 流水 线 进 行 总 体 概 述 。( 如 果 你 想 了 解 更 多 关于 
图 4-42 的 细节 ， 可 参考 4.13 节 对 单 时 钟 周期 图 的 描述 。) 单 时 钟 周期 图 代表 了 一 系列 多 时 钟 
周期 图 在 某 个 时 钟 周期 的 垂直 片段 ， 显 示 了 流水 线 中 每 条 指令 在 指定 时 钟 周期 内 对 数据 通路 
的 使 用 。 例 如 ， 图 4-44 的 单 时 钟 周期 图 对 应 于 图 4-42 和 图 4-43 的 第 五 个 时 钟 周期 。 显 然 ， 
单 时 钟 周期 图 具有 更 多 的 细节 ， 但 需要 更 多 的 空间 来 表示 相同 的 时 钟 周期 数 。 本 章 后 面 的 练 
习题 会 要 求 你 为 其 他 的 指令 序列 画 出 对 应 的 流水 线 图 。 








ADD X14, X5, X6 | LDUR X13, [X1,48] | ADD X12, x3, x4 | SUB X11, X2, X3 | LDUR X10, [X1,40] 
Memory Write-back 





Instruction fatch nstruction decode Execution 














图 4-44 与 图 4-42 和 图 4-43 中 流水 线 第 五 个 时 钟 周期 对 应 的 单 时 钟 周期 流水 线 图 。 从 图 中 
可 以 看 出 ， 单 时 钟 周 期 图 是 多 时 钟 周期 图 的 一 个 垂直 片段 











309| 





1 
310| 








311 








218 肿 了 章 





4.6.2 ”流水 线 控制 


如 同 4.3 节 在 单 周 期 数据 通路 中 加 入 控制 器 ， 下 面 我 们 在 流水 | 相对 以 前 的 任何 计算 机 ， 
线 的 数据 通路 中 加 入 控制 。 我 们 从 一 个 简单 的 设计 开始 ， 从 乐观 的 TD 
一 面 来 看 待 问题 。 np da 
第 一 步 是 在 现 有 的 数据 通路 上 标注 控制 信号 ， 如 图 4-45 所 示 。 | Computer: The conrol pam 
我 们 尽量 借用 图 4-17 中 简单 数据 通路 的 控制 ， 使 用 相同 的 ALU 控 1%% ”7 
制 逻辑 、 分 支 逻 辑 、 第 二 读 寄 存 器 号 多 路 选择 器 以 及 控制 信号 。 这 
些 功能 已 在 图 4-12、 图 4-16 以 及 图 4-18 中 定义 。 为 了 使 下 面 的 内 容 更 易于 理解 ， 图 4-46 一 
图 4-48 重新 给 出 了 其 中 的 关键 信息 。 
















































































图 4-45 在 图 4-40 上 增加 了 控制 信号 的 流水 线 数据 通路 。 这 个 数据 通路 采用 了 与 4.4 节 中 相同 的 PC 
控制 逻辑 、 目 的 寄存 器 号 控制 以 及 ALU 控制 。 注 意 ， 这 时 在 EX 级 中 需要 指令 的 操作 码 字段 
作为 ALU 控制 的 输入 ， 所 以 这 些 位 (操作 码 字段 ) 必须 存放 在 ID/EX 流水 线 寄存 器 中 














store register 



































compare and branch on zero | XXXXXXXXXXX pass input b O111 
ADD ”10001011000 add 0010 
SUB 11001011000 Subtract 0110 
AND | 10001010000 AND 0000 
ORR | 10101010000 OR 0001 
图 4-46 图 4-12 的 一 个 副本 。 本 图 描述 了 如 何 根据 ALUOp 控制 位 和 不 同 R 型 指令 的 操作 码 设置 ALU 
控制 信号 


与 单 时 钟 周期 实现 类 似 ， 我 们 假定 每 个 时 钟 周期 内 都 会 写 PC， 因 此 PC 不 需要 独立 的 写 
信号 。 同 理 ， 流 水 线 寄存 器 (IF/ID .ID/EX 、.EX/MEM 和 MEM/WB) 也 不 需要 单独 的 写 信号 ， 
因为 这 些 流水 线 寄 存 器 的 每 个 周期 都 会 被 写 人 。 



































Reg2Loc | >0 半 林 存 串 2 的 寄存 器 号 来 自 Rm 字 段 ( 位 | 读 寄存 器 2 的 寄存 器 号 来 自 Ft 字 段 ( 位 40 ) 

| “数据 写 入 寄存 器 文件 中 由 写 寄存 器 输入 端口 
RegWrite 无 指定 的 寄存 器 
ALUSrc | ALU 的 第 二 个 操作 数 为 指令 低 16 位 的 符号 扩展 
| | PC 由 分 支 目标 地 址 ( 由 一 个 加 法 器 产生 ) 取代 

“地 址 输入 端 指定 的 存储 器 单元 内 容 输出 到 读 | 

MemRead 无 | 数据 输出 端口 

| 将 写 入 数据 输入 端的 数据 写 入 到 地 址 输入 端 
ne | -和 | 指定 的 存储器 单 元 中 
MemtoReg | ” 写 入 寄存 器 的 值 来 自 ALU | 写 入 寄存 器 的 数据 来 自 数据 存储 器 











图 4-47 图 4-16 的 一 个 副本 。 图 中 定义 了 7 个 控制 信号 的 功能 。ALUOp 已 经 在 图 4-46 
的 第 二 列 中 定义 。 当 一 个 二 选 一 多 路 选择 器 的 1 位 控制 位 有 效 时 ， 多 选 器 选择 
1 对 应 的 输入 。 和 否则， 如 果 控制 位 无 效 ， 多 路 选择 器 选择 0 对 应 的 输入 。 注 意 ， 
了 PCSrc 是 由 图 4-45 中 的 一 个 与 门 控制 的 。 如 果 Branch 信号 与 ALU 的 零 输 出 信 
号 都 有 效 ， 则 PCSre 为 1， 否 则 为 0。 控 制 单元 仅 在 CB2 指令 中 才 设 置 Branch 
信号 ， 其 他 时 候 PCSrc 为 0 
































为 了 详细 说 明 如 何 控制 流水 线 ， 我 们 只 需要 在 每 一 个 流水 级 中 设置 相应 的 控制 信号 。 由 
于 每 个 控制 信号 只 与 某 个 流水 级 中 某 个 活跃 的 功能 单元 相关 ， 因 此 我 们 可 以 根据 流水 线 的 五 
级 将 控制 信号 分 成 五 组 : 

1. 取 指 令 : 读 指 令 存储 器 和 写 PC 的 控制 信号 总 是 有 效 ， 因 此 这 一 级 没有 特别 需要 控制 
的 部 件 。 

2. 指令 译 码 及 读 寄存 器 文件 ， 这 一 级 需要 为 第 二 个 读 寄存 器 单 端口 选择 正确 的 寄存 
器 号 ， 因 此 需要 设置 Reg2Loc 信号。 该 信号 选择 采用 指令 的 20:16 位 (Rm) 还 是 4:0 位 
(Rt)。 

3. 执行 或 计算 地 址 : 这 一 级 将 设置 的 控制 信号 为 ALUOp 和 ALUSrc ( 见 图 4-46 和 
图 4-47 )。 这 些 信号 选择 ALU 的 操作 ， 并 选择 将 寄存 器 文件 读 出 的 数据 还 是 符号 扩展 的 立即 
数 作为 ALU 的 输入 。 

4. 访问 数据 存储 器 : 这 一 级 设置 的 控制 信号 有 Branch 、MemRead 和 MemWrite， 分 
别 由 比较 为 0 分 支 、load 和 store 指令 设置 。 直 到 Branch 控制 信号 有 效 且 ALU 结果 为 0， 
图 4-47 中 的 PCSrc 信号 才 选 择 下 一 个 顺序 的 地 址 。 

5. 写 回 : 这 一 级 的 两 个 控制 信号 为 MemtoReg 和 RegWrite， 前 者 决定 是 将 ALU 结果 还 
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是 将 存储 器 数据 传输 到 寄存 器 文件 ， 后 者 决定 是 否 写 人 寄存 器 文件 。 

由 于 数据 通路 的 流水 化 并 不 会 改变 控制 信号 的 含义 ， 因 此 可 以 使 用 与 简单 数据 通路 相同 
的 控制 信号 。 图 4-48 就 与 4.4 节 具 有 相同 的 控制 信号 ， 但 这 9 个 控制 信号 按 流水 级 进行 了 
分 组 。 

实现 控制 就 是 为 每 条 指令 的 每 个 执行 级 将 9 个 控制 信号 设置 为 合适 的 值 。 在 流水 线 的 
ID 段 对 指令 译 码 的 同时 ， 我 们 需要 设置 Reg2Loc 以 读 取 正确 的 寄存 器 ， 需 要 使 用 操作 码 字 
段 来 控制 这 个 多 路 选择 器 ， 正 如 前 面 精 解 中 讲 到 的 符号 扩展 一 样 。 仔 细 观 察 操作 码 就 会 发 
现 ， 如 图 4-22 中 ，R 型 指令 的 第 28 位 是 0， 其 余 是 1。 这 正 是 控制 寄存 器 地 址 多 路 选择 器 所 
需要 的 ， 因 此 只 需 简单 地 将 指令 的 第 28 位 连 到 Reg2Loc 上 。 

由 于 其 他 的 控制 信号 从 EX 级 开始 ， 因 此 可 以 在 指令 译 码 时 为 后 续 级 创建 控制 信号 。 传 
递 控制 信号 最 简单 的 方式 是 扩展 流水 线 寄存 器 以 包含 控制 信息 。 图 4-49 描述 了 当 指 令 在 流 
水 线 中 行进 时 控制 信号 的 使 用 ， 如 同 图 4-40 中 load 指令 的 目的 寄存 器 号 在 流水 线 中 的 传递 。 
图 4-50 描述 了 完整 的 数据 通路 ， 其 中 扩展 了 流水 线 寄存 器 、 控 制 线 与 对 应 的 流水 级 相连 ( 指 
令 第 28 位 控制 Reg2Loc 寄存 器 地 址 多 路 选择 器 )。( 如 果 你 想 知道 更 多 的 细节 ，4.13 节 给 出 
了 更 多 LEGv8 代码 在 流水 线 硬件 中 执行 的 单 时 钟 周期 流水 线 图 。) 





Instruction 






































IFiD ID/EX EXMEM MEM/WB 
图 4-49 流水 线 最 后 三 级 的 控制 信号 。 注 意 ，8 个 控制 信号 中 有 3 个 用 于 EX 级 ， 剩 下 
5 个 被 传递 到 扩展 的 EX/MEM 流水 线 寄存 器 中 ， 用 以 保存 控制 信号 ， 其 中 3 个 
在 MEM 级 使 用 ， 最 后 2 个 传递 到 MEM/WB 并 在 WB 级 使 用 


陋 舱 在 MIPS 指令 格式 中 ， 源 操作 数 寄存 器 总 是 在 相同 的 位 置 ， 而 LEGv8 指令 的 一 
个 源 操 作 数 寄存 器 的 位 置 不 固定 ， 这 给 LEGv8 计算 机 的 设计 者 带 来 了 更 大 的 挑战 。 因 此 ， 
MIPS 的 译 码 级 不 做 任何 译 码 工 作 就 可 以 读 出 两 个 寄存 器 。 而 LEGv8 的 ID 级 需要 一 个 具 
有 三 个 端口 的 寄存 器 文件 以 读 出 三 个 可 能 的 寄存 器 ， 或 需要 进行 部 分 译 码 ， 如 本 章 前 面 的 
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图 4-50 图 4-45 中 的 流水 线 数据 通路 ,控制 信号 与 流水 线 寄存 器 的 控制 部 分 相连 。 流 水 线 最 后 三 级 的 
控制 信号 在 指令 译 码 级 创建 ， 随 后 放 人 ID/EX 流水 线 寄存 器 中 。 每 个 流水 级 使 用 相应 的 控制 


信和 号， 剩余 的 控制 信号 传递 到 下 个 流水 级 中 


4.7 数据 冒险 : 旁 路 与 阻塞 


上 节 的 例子 展示 了 流水 线 执行 的 强大 功能 以 及 硬件 如 何以 流水 
线 的 方式 执行 任务 。 本 节 我 们 抛 开 乐观 情况 ， 看 看 在 实际 程序 中 发 
生 了 什么 。 图 4-42 一 图 4-44 中 的 各 LEGv8 指令 之 间 相 互 独立 ， 其 
中 任何 一 条 指令 都 没有 用 到 任何 其 他 指令 的 计算 结果 。 然 而 ,在 4.5 
节 中 我 们 已 发 现 数据 冒险 是 流水 线 执行 的 主要 障碍 之 一 。 

下 面 这 段 代 码 序列 具有 很 多 的 依赖 性 (依赖 关系 以 灰色 标 出 ): 


SUB  X2，X1,X3 /1/ Register X2 written by SUB 

AND Xl2,X2,X5 // lst operand(X2) depends on SUB 
OR X13.X6.X2 // 2nd operand(X2) depends on SUB 
ADD X14,X2.X2 // 1st(X2) & 2nd(X2) depend on SUB 
STUR X15,[X2,.#100] // Base (X2) depends on SUB 


你 是 什么 意思 ， 为 什么 要 
构建 它 ” 这 是 壳 路 ， 你 必 
须 构建 劳 路 。 

Douglas Adams, The 
Hitehhiker's Guide to the 
Galaxy, 1979 


最 后 四 条 指令 都 依赖 于 第 一 条 指令 寄存 器 X2 中 的 结果 。 如 果 寄 存 器 X2 在 sub 指令 执行 之 
前 的 值 为 10， 而 在 sub 指令 执行 之 后 的 值 为 -20， 程 序 员 认为 -20 将 被 后 续 引用 寄存 器 X2 








的 指令 使 用 。 








该 指令 序列 在 流水 线 中 如 何 执行 ? 图 4-51 用 多 时 钟 周期 流水 线 方式 说 明了 这 些 指令 的 
执行 过 程 。 为 了 在 当前 流水 线 中 说 明 这 个 指令 序列 的 执行 过 程 ， 图 4-51 的 顶部 给 出 了 寄存 
器 X2 中 的 值 ， 该 值 在 第 五 个 时 钟 周期 的 中 间 发 生 改变 ， 也 就 是 sub 指令 写 结果 的 时 候 。 
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时 间 { 以 时 钟 周 期 计 ) 





Value of CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8 CC9 
register X2: 10 10 10 10 10/-20 -20 -20 =20 -20 
程序 执行 顺序 














( 按 指令 序 ) 
SUB X2, X1, X3 相 | 让 | 惫 
_ 
AND X12, x2, x5 Re | 
ORR X13, X6, X2 Dw | 


ADD X14, X2, X2 











站 STUR X15, [X2,#100] sg Req 


图 4-51 使 用 简化 数据 通路 的 五 条 指令 中 流水 线 的 依赖 情况 ， 以 此 说 明 依赖 问题 。 所 有 的 
依 束 动 作 都 用 灰色 标记 ,图 中 顶部 的 “ CC 1” 表 示 第 一 个 时 钟 周期 。 第 一 条 指 今 
写 寄存 器 X2， 所 有 后 续 的 指令 读 x2 。X2 在 第 五 个 时 钟 周期 被 写 入 ， 因 此 在 第 五 
个 时 钟 周期 之 前 x2 的 值 都 是 无 效 的 。( 当 这 样 的 写 操作 发 生 时 ， 一 个 时 钟 周期 中 
寄存 器 的 读 操作 返回 的 值 是 该 周期 前 半 段 结束 时 写 和 人 的 值 。) 数据 依赖 性 用 数据 通 
路 中 从 顶部 到 底部 的 灰色 线 表示 。 那 些 在 时 间 轴 上 倒退 的 线 就 是 流水 线 数据 由 险 


最 后 一 个 潜在 的 冒险 可 以 通过 寄存 器 文件 的 硬件 设计 解决。 在 一 个 时 钟 周期 内 同时 读 写 
一 个 寄存 器 时 会 发 生 什 么 呢 ? 假设 在 时 钟 周 期 的 前 半 部 分 写 ， 后 半 部 分 读 ， 因 此 读 操作 将 读 
取 到 最 新 写 人 的 内 容 。 大 多 数 寄存 器 文件 采用 这 种 实现 方法 ， 因 而 这 种 情况 下 不 会 产生 数据 

图 4-51 表明 如 果 读 操作 发 生 在 第 五 个 时 钟 周期 之 前 ， 那 么 从 寄存 器 X2 中 读 到 的 值 就 不 
会 是 sub 指令 的 结果 。 因 此， 指令 ADD 和 STUR 可 得 到 正确 结果 -20， 而 指令 AND 和 ORR 
将 得 到 错误 结果 10。 使 用 这 种 风格 的 流水 线 图 ， 当 一 条 依赖 关系 的 方向 与 时 间 轴 相反 时 ， 问 
题 就 会 变 得 很 明显 。 

正如 4.5 节 所 提 到 的 那样 ，SUB 指令 在 EX 级 或 第 三 个 时 钟 周期 的 末尾 结果 才 有 效 。 那 
么 AND 指令 和 ORR 指令 什么 时 候 真 正 需要 该 数据 呢 ? 答案 是 AND 指令 和 ORR 指令 EX 级 的 
开始 ， 或 分 别 是 第 四 个 和 第 五 个 时 钟 周期 。 因 此 ， 在 数据 从 寄存 器 文件 读 出 之 前 ， 一 旦 数据 
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有 效 我 们 就 能 将 其 旁 路 给 所 需 的 单元 ， 那 么 就 能 够 无 阻塞 地 执行 这 段 指令 。 

旁 路 如 何 工作 ? 出 于 简化 的 目的 ， 本 节 剩 余部 分 我 们 仅 考虑 在 EX 级 旁 路 一 个 操作 的 挑 
战 ， 该 操作 可 能 是 ALU 操作 ， 也 可 能 是 有 效 地 址 的 计算 。 这 意味 着 如 果 一 条 指令 试图 在 EX 
级 使 用 前 一 条 指令 计划 在 WB 级 写 人 的 寄存 器 时 ， 我 们 实际 需要 将 这 些 数据 送 到 ALU 的 输 
人 端 。 
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一 种 更 精确 的 表示 依赖 性 ”的 方法 是 使 用 流水 线 寄存 器 的 命名 。 例 如 , ID/EX.RegisterRn1 
表示 一 个 寄存 器 号 ， 该 寄存 器 的 值 从 寄存 器 文件 的 第 一 个 读 端 口中 获得 ， 可 在 流水 线 寄 存 器 
ID/EX 中 找到 。 这 个 名 称 的 第 一 部 分 ， 即 句号 的 左边 ,表示 流水 线 寄存 器 的 名 字 ; 第 二 部 分 
表示 寄存 器 中 字段 的 名 字 。 使 用 这 种 表示 方法 ， 两 对 冒险 条 件 是 : 

1a. EX/MEM RegisterRd = ID/EX.RegisterRn1 

1b, EX/MEM.RegisterRd = ID/EX.RegisterRm2 

2a. MEM/WB.RegisterRd = ID/EX.RegisterRnl 

2b. MEM/WB.RegisterRd = ID/EX.RegisterRm2 


考虑 本 节 开 头 的 指令 序列 ， 第 一 个 冒险 发 生 在 寄存 器 X2 上 ， 即 SUB X2,X1,X3 的 结 
果 和 ADD X12,X2,X5 的 第 一 个 读 操作 数 之 间 。 这 个 冒险 在 AND 指令 处 于 EX 级 而 前 一 条 
SUB 指令 处 于 MEM 级 时 就 能 检测 出 来 ， 这 就 是 冒险 1a: 

EX/MEM.RegisterRd = ID/EX -RegisterRnl = X2 


| 例题 | 依赖 性 检测 = 
本 节 开 头 指令 序列 中 的 依赖 性 进行 分 类 : 
SUB XxX2, X1, X3 // Register X2 set by SUB 
AND Xl2, X2, xX5 // lst 0perand(X2) set by SUB 
OR X13, X6, X2 // 2nd operand(X2) set by SUB 
ADD X14, X2, X2 // 1st(X2) & 2nd(X2) set by SUB 
STUR X15, [X2,#100] // Index(X2) set by SUB 
| 答案 | 如 上 所 述 ，SUB-AND 是 一 个 la 类 冒险 。 其 余 的 冒险 分 别 是 : 
e SUB-ORR 是 一 个 2b 类 冒险 : 


MEM/WB.RegisterRd = ID/EX.RegisterRm2 = X2 
。 SUB-ADD 上 的 两 个 依赖 性 都 不 是 冒险 ， 因 为 寄存 器 文件 在 ADD 的 ID 级 就 能 提供 相 





应 的 数据 。 
e SUB 指令 和 STUR 指令 之 间 也 不 存在 数据 冒险 ， 因 为 STUR 指令 在 SUB 指令 写 寄存 
器 X2 后 的 时 钟 周期 读 取 X2。 . 





有 些 指令 不 需要 写 回 寄存 器 ， 因 而 旁 路 策略 可 能 不 准确 ， 因 为 有 时 一 些 旁 路 是 不 必要 
的 。 一 种 简单 的 解决 方法 是 检测 RegWrite 信号 是 否 活跃 ， 即 在 EX 和 MEM 级 检测 流水 线 
寄存 器 的 WB 控制 字段 以 确定 RegWrite 是 否 有 效 。 注 意 ，LEGv8 要 求 XZR ( X31) 寄存 器 
始终 为 0， 因 此 如 果 流 水 线 中 的 一 条 指令 以 XZR 作为 目的 寄存 器 (如 SUBS xzR,X1,2), 
那么 必须 避免 把 可 能 的 非 零 结果 旁 路 。 避 免 将 XZzR 作为 目的 的 结果 旁 路 ， 使 得 汇编 程序 员 
和 编译 器 不 必 考 虑 避免 使 用 XZR 作为 目的 寄存 器 的 情况 。 我 们 只 需 在 第 一 类 冒险 条 件 中 加 
人 条 件 EX/MEM.RegisterRd 关 31， 在 第 二 类 冒险 条 件 中 加 入 MEM/WB.RegisterRd 去 31。 

最 后 一 个 细节 是 ， 指 令 STUR 和 CBZ 通过 Rt 字段 (4:0 ) 而 不 是 Rm 字段 (20:16 ) 来 
指明 第 二 寄存 器 操作 数 。 流 水 线 在 ID 级 通过 一 个 二 选 一 多 路 选择 器 和 Reg2Loc 控制 信号 进 
行 选择 。 为 了 简化 流水 线 控制 ,我 们 直接 使 用 该 多 路 选择 器 的 输出 代替 实际 的 Rm 字段 ， 这 
样 控制 逻辑 总 是 能 够 获得 正确 的 第 二 寄存 器 操作 数 。 我 们 仍 将 该 操作 数 叫 作 RegisterRm, 但 
能 够 保证 指令 STUR 和 CBZ 获得 正确 的 操作 数 。 
”也 称 相关 性 。 一- 译 者 注 
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至 此 ， 我 们 能 够 检测 冒险 ， 问 题 已 经 解决 了 一 半 。 但 我 们 还 需要 旁 路 正确 的 数据 。 

图 4-52 描述 了 图 4-51 的 指令 序列 中 流水 线 寄存 器 和 ALU 输入 间 的 依赖 性 。 与 图 4-51 
不 同 的 是 ， 这 里 的 依赖 性 开始 于 一 个 流水 线 霖 存 器 而 不 是 等 待 WB 级 写 回 寄 存 器 文件 。 由 于 
流水 线 寄存 器 保存 了 需要 旁 路 的 数据 ， 因 此 后 面 的 指令 能 够 及 时 获得 相应 的 数据 。 























时 间 ( 以 时 钟 周期 计 ) 
CC1 CC2 cc3 CC4 CCc5 cce CC7 CC8 CC9 
Value of register X2: 10 10 10 10 10/-20 -20 -20 = -20 
Value of EX/MEM: x Xx x -20 x x x x x 
Value of MEM/WB: x x x X -20 x X Xx Xx 


程序 执行 顺序 
{ 按 指令 序 ) 


SUB X2, X1, X3 


AND X12, X2, X5 





ORR X13, X6, X2 


ADD X14, X2, X2 


STUR X15, [X2.#100] 本 | -| 
. 上 1 


图 4-52 ”流水线 寄 存 器 间 随 时 间 推 进 的 依赖 性 ,通过 旁 路 流水 线 寄存 器 中 的 结果 就 可 能 能 为 AND 指令 
和 ORR 指令 提供 所 需 的 ALU 输入 。 流 水 线 寄存 器 的 值 说明 ， 所 需要 的 值 在 其 被 写 人 寄存 器 
文件 之 前 就 已 经 有 效 了 。 假 设 寄存 器 文件 能 够 旁 路 在 同一 时 钟 周 期 内 读 写 的 数据 ， 那 么 ADD 
指令 就 不 需要 阻塞 但 其 需要 的 值 来 自 于 寄存 器 文件 而 不 是 流水 线 寄存 器 。 寄 存 器 文件 “ 旁 
路 "( 即 读 操作 获得 同一 个 时 钟 周 期 写 的 值 ) 使 得 图 中 Xx2 寄存 器 在 第 五 个 时 钟 周期 开始 时 的 值 
是 10， 而 在 周期 结束 时 是 -20 








如 果 可 以 从 任意 流水 线 寄存 器 而 不 仅仅 从 ID/EX 中 得 到 ALU 的 输入 ,那么 就 可 以 旁 路 
正确 的 数据 。 通 过 在 ALU 的 输入 端 加 上 多 路 选择 器 以 及 正确 的 控制 信号 ， 流 水 线 可 以 在 存 
在 依赖 性 的 情况 下 全 速 运行 。 

现在 ,假设 需要 旁 路 的 指令 是 四 个 R 型 指令 ; ADD、SUB、AND 和 ORR。 图 4-53 给 出 
了 在 加 入 旁 路 机 制 前 后 ，ALU 和 流水 线 寄存 器 的 示意 图 。 图 4-54 给 出 了 在 寄存 器 文件 值 和 
某 一 旁 路 的 数值 间 进 行 选择 的 ALU 多 路 选择 器 的 控制 信号 值 。 

因为 ALU 旁 路 多 选 器 在 EX 级， 因此 旁 路 控制 也 在 这 一 级 中 完成 。 因 此 ， 我 们 必须 
通过 ID/EX 流水 线 寄存 器 从 ID 段 中 传递 操作 数 寄存 器 号 ， 从 而 决定 是 否 旁 路 。 旁 路 之 前 ， 
ID/EX 寄存 器 不 需要 提供 空间 来 保存 Rn 和 Rm 字段 。 因 此 ， 这 两 个 字段 需 被 加 和 人 ID/EX 流 
水 线 寄存 器 。 
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EX/MEM MEM/WB 
Data | 
memory 
al 未 使 用 旁 路 
EX/MEM MEM/WB 





























b) 使 用 旁 路 


图 4-53 上 面 的 图 是 加 入 旁 路 机 制 前 的 ALU 和 流水 线 寄存 器 。 下 面 的 图 中 ， 多 路 选择 
器 增加 了 旁 路 路 径 ， 并 标注 了 旁 路 单元 。 新 增 的 硬件 用 灰色 表示 。 本 图 只 是 一 
个 示意 图 ， 没 有 标识 完整 路 径 中 诸如 符号 扩展 硬件 之 类 的 细节 








] IDyEx 





第 一 个 ALU 操 作 数 从 寄存 器 文件 中 获得 





ForwardA = 10 | EX/MEM 


第 一 个 ALU 操 作 数 由 上 一 个 ALU 运 算 结果 帝 路 获得 





ForwardA = 01 | MEM/WB 





第 一 个 ALU 操 作 数 从 数据 存储 器 或 者 前 面 的 ALU 结 果 中 旁 路 获得 





ForwardB = 00 | ID/EX 


第 二 个 ALU 操 作 数 从 寄存 器 文件 中 获得 





ForwardB = 10 | EX/MEM 
ForwardB = 01 | MEM/WB 


第 二 个 ALU 操 作 数 由 上 一 个 ALU 运 算 结果 旁 路 获得 











第 二 个 ALU 操 作 数 由 数据 存储 器 或 者 前 面 的 ALU 结 果 旁 路 获得 








图 4-54 图 4-53 中 旁 路 多 路 选择 器 的 控制 信号 。 作 为 ALU 另 一 个 输入 的 带 符号 立即 
数 将 在 本 节 后 面 的 “ 精 解 ”部 分 中 解释 
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下 面 给 出 检测 冒险 的 条 件 以 及 解决 冒险 的 控制 信号 : 
1. EX 冒险 : 


if (EX/MEM.RegWrite 
and (EX/MEM.RegisterRd = 31) 
and (EX/MEM.RegisterRd = ID/EX.RegisterRn1)) ForwardA = 10 


if (EX/MEM.RegWrite 
and (EX/MEM.RegisterRd * 31) 
and (EX/MEM.RegisterRd = ID/EX.RegisterRm2)) Forward8 = 10 


这 种 情况 将 前 一 条 指令 的 结果 旁 路 到 任何 一 个 ALU 的 输入 中 。 如 果 前 一 条 指令 要 写 寄 
存 器 文件 ， 且 要 写 的 寄存 器 号 与 ALU 输入 (A 或 B) 要 读 的 寄存 器 号 一 致 (不 是 寄存 器 31 )， 
那么 就 控制 多 路 选择 器 以 选择 数据 ， 代 替 从 流水 线 寄 存 器 EX/MEM 中 读 取 。 

2. MEM 冒险 : 


if (MEM/WB.Regwrite 

and (MEM/WB.RegisterRd * 31) 

and (MEM/WB.RegisterRd = 1D/EX.RegisterRn1)) ForwardA = 01 

if (MEM/WB.RegWrite 

and (MEM/WB.RegisterRd # 31) 

and (MEM/WB.RegisterRd = ID/EX.RegisterRm2)) ForwardB = 01 

如 上 所 述 ， 在 WB 级 不 会 发 生 冒 险 ， 因 为 我 们 假设 在 ID 级 指令 读 取 的 寄存 器 与 WB 级 
指令 写 人 的 寄存 器 是 同一 寄存 器 时 ， 寄 存 器 文件 能 够 提供 正确 的 结果 。 这 种 寄存 器 文件 实现 
了 另 一 种 形式 的 旁 路 ， 但 这 种 旁 路 只 发 生 在 寄存 器 文件 内 部 - 

更 为 复杂 的 情况 是 ， 发 生 在 WB 级 指令 的 结果 、MEM 级 指令 的 结果 和 ALU 级 指令 的 
源 操作 数 之 问 潜在 的 数据 冒险 。 例 如 ， 在 一 个 寄存 器 中 对 某 个 向 量 的 多 个 值 求 和 时 ， 指 令 序 
列 将 读 写 同 一 寄存 器 : 

ADD X1,X1,X2 


ADD XxX1,Xl,X3 
ADD X1,X1,X4 


在 这 种 情况 下 ,由 于 MEM 级 中 的 结果 是 最 新 的 ， 因 而 需要 对 MEM 级 中 的 结果 旁 路 。 
因此 ， 对 MEM 冒险 的 控制 策略 为 《额外 加 入 的 条 件 采 用 灰色 表示 ); 


if (MEM/WB.RegWrite 
and (MEM/WB. RegfsterRd * 31) 





eg 
and (MEM/WB. RegisterRd = ID/EX. er ForwardA = 01 


if (MEM/WB.RegWrite 

and (MEM/WB.RegisterRd * 31) 

and not(EX/MEM, RegWrite and (EX/MEM, 
and (EX/MEM,RegisterRd * ID/ rRm2 

and (MEM/WB.RegisterRd = ID/EX.RegisterRm2)) ForwardB = 01 


有 些 操作 需要 使 用 EX 级 的 结果 ， 因 而 需要 为 这 些 操作 实现 旁 路 。 图 4-55 给 出 了 支持 这 
些 劳 路 所 必需 的 硬件 。 注 意 ， 图 中 EX/MEM.RegisterRd 字段 是 一 条 ALU 指令 (来 自 指令 的 
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Rd 字段 ) 或 load 指令 (来 自 Rt 字段 ,但 本 节 仍 使 用 Rd 表示 ) 的 目的 寄存 器 。 
如 果 你 想 看 到 更 多 使 用 单 周期 流水 线 图 的 例子 ，4.13 节 给 出 了 一 些 图 ， 展 示 了 两 段 带 有 
冒险 的 LEGv8， 而 这 些 冒险 需要 使 用 旁 路 解决 。 
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图 4-55 通过 旁 路 解决 冒险 的 数据 通路 。 与 图 4-50 中 的 数据 通路 相 比 ， 本 图 在 
ALU 的 输入 端 加 入 了 多 路 选择 器 。 图 中 忽略 了 完整 数据 通路 中 的 一 些 细 


节 ， 如 分 支 硬件 和 符号 扩展 硬件 


了 睛 解 旁 路 还 可 以 帮助 解决 因 store 指令 依赖 其 他 指令 而 导致 的 冒险 。 由 于 store 指令 
在 MEM 级 只 使 用 一 个 数据 ， 因 此 旁 路 较为 容易 。 考 虑 load 指令 后 面 紧 跟 store 的 情况 ， 旁 
路 在 LEGv8 体系 结构 中 实现 存储 器 - 存储 器 间 复 制 时 很 有 帮助 。 由 于 复制 操作 非常 频繁 ， 
为 了 提高 复制 的 速度 ， 我 们 需要 加 入 更 多 的 旁 路 硬件 。 如 果 我 们 重 画 图 4-52， 并 分 别 使 用 
LDUR 和 STUR 指令 代替 SUB 和 AND 指令 ， 将 发 现 这 时 也 可 能 避免 一 次 阻塞 ， 因 为 load 
指令 的 MEM/WB 寄存 器 中 的 数据 能 够 及 时 地 提供 给 store 指令 在 MEM 级 使 用 。 为 了 实 
现 这 个 功能 ， 我 们 需要 在 存储 器 访问 级 加 入 旁 路 。 我 们 将 如 何 对 其 进行 修改 作为 练习 留 给 


读者 。 


此 外 ， 图 4-55 的 数据 通路 中 省 略 了 load 指令 和 store 指令 所 需 的 ALU 输入 端的 带 符号 
立即 数 。 由 于 中 央 控 制 决定 如 何在 寄存 器 和 立即 数 之 间 进 行 选择 ， 而 且 旁 路 单元 选择 流水 
线 寄存 器 作为 ALU 的 一 个 寄存 器 输入 ， 因 此 最 简单 的 解决 方法 就 是 加 入 一 个 2:1 的 多 选 器 ， 
以 便 在 ForwardB 多 路 选择 器 的 输出 和 带 符号 立即 数 之 间 进 行 选择 。 图 4-56 描述 了 新 增 的 


部 分 。 


冒险 与 阻塞 


如 4.5 节 所 述 ， 当 一 条 写 某 个 寄存 器 的 load 指令 之 后 紧 跟 一 
条 读 该 寄存 器 的 指令 时 ， 旁 路 就 无 法 发 挥 作 用 了 - 图 4-57 说 明了 
这 个 问题 。 第 四 个 时 钟 周期 中 ， 数 据 正 从 存储 器 读 出 的 同时 ，ALU 
正在 为 后 续 指令 执行 操作 。 因 此 ， 当 load 指令 后 紧 跟着 一 个 需要 
读 取 其 结果 的 指令 时 ， 必 须 采用 相应 的 机 制 阻塞 流水 线 。 





如 果 第 一 次 没有 成 功 ， 那 
就 重新 定义 成 功 。 
Anonymous 
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图 4-56 在 图 4-53 的 数据 通路 中 加 入 了 一 个 2:1 的 多 路 选择 器 ， 用 以 选择 带 符 号 立即 数 作为 ALU 的 
一 个 输入 


时 间 ( 以 时 钟 周期 计 ) 
CC1 CC2 CC3 CC4 CCc5 cc6 CC7 ces CC9 





程序 执行 顺序 
( 按 指令 序 ) 


SUB X2, X1, X3 








AND X4, X2, X5 








ORR X8, X2, X6 





ADD X9, X4, X2 





SUB X1, X6, X7 








4-57 指令 的 流水 线 序列 。 由 于 load 指令 和 紧 随 其 后 的 AND 指令 之 间 的 依赖 性 在 时 间 上 是 回溯 的 ， 
这 种 冒险 不 可 能 通过 旁 路 来 解决 。 因 此 ， 这 类 指令 组 合 会 导致 冒险 检测 单元 产生 阻塞 


日 原 书 有 误 ， 应 为 一 条 load 指令 , 如 LDUR X2，[X,#20] 。 一 一 译 者 注 
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因此 ， 除 了 一 个 旁 路 单元 以 外 ， 我 们 还 需要 一 个 冒险 检测 单元 在 ID 级 进行 检测 ， 从 而 
在 load 指令 与 依赖 于 它 的 指令 间 插 入 阻塞 。 该 冒险 检测 单元 检测 load 指令 ， 其 控制 满足 一 
个 条 件 : 

if (ID/EX.MemRead and 

((ID/EX.RegisterRd = IF/1D.RegisterRn1l) or 
(ID/EX.RegisterRd = IF/1D.RegisterRm2))) 
stall the pipeline 

我 们 使 用 RegisterRd 引用 load 指令 和 R 型 指令 中 4:0 位 指定 的 寄存 器 。 第 一 行 检查 指 
令 是 否 是 一 条 load 指令 (只 有 load 指令 从 存储 器 中 读 取 数据 )。 后 面 两 行 检测 EX 级 load 指 
令 的 目的 寄存 器 是 否 与 ID 级 指令 的 某 一 个 源 寄存 器 相 匹 配 。 如 果 条 件 成 立 ， 指 令 将 阻塞 一 
个 时 钟 周期 。 经 过 这 一 个 周期 的 阻塞， 旁 路 逻辑 就 可 以 处 理 依赖 性 ， 且 指令 可 以 继续 执行 
(如 果 没 有 采用 旁 路 ， 那 么 图 4-57 中 的 指令 还 需要 阻塞 一 个 周期 )。 

如 果 处 于 ID 级 的 指令 被 阻塞 ， 那 么 处 于 正 级 的 指令 也 必须 被 阻塞 ， 否 则 ， 已 经 取 到 的 指 
令 就 会 丢失 。 防 止 这 两 条 指令 继续 执行 的 方法 是 保持 PC 寄存 器 和 IF/ID 流水 线 寄存 器 不 变 。 
如 果 这 些 寄存 器 保持 不 变 ， 那 么 正 级 的 指令 将 继续 使 用 相同 的 PC 取 指 ， 而 在 ID 级 将 继续 
使 用 IF/ID 流水 线 寄存 器 中 相同 的 指令 字段 读 寄 存 器 。 回 到 洗衣 店 
类 比 中 ， 这 一 过 程 就 好 像 是 重新 打开 洗衣 机 洗 相同 的 衣服 ， 并 让 烘 干 ”| 空 指令 : 一 种 不 改变 任何 
机 继续 空转 一 样 。 当 然 ， 就 像 烘 干 机 一 样 ， 从 EX 级 开始 的 流水 线 后 | 权 器 杖 者 的 指令 
半 部 分 必须 做 点 “ 事 "， 即 执行 不 会 产生 任何 效果 的 空 指令 (nop)。 

那么 ， 如 何在 流水 线 中 插入 空 指令 (就 像 气泡 一 样 ) 呢 ? 图 4-48 中 , 将 EX、MEM 和 
WB 级 的 8 个 控制 信号 都 置 为 无 效 ( 置 为 0 )， 就 会 产生 一 个 “什么 都 不 做 ”的 指令 ， 即 空 指 
令 。 通 过 识别 ID 级 的 冒险 ， 以 及 将 ID/EX 流水 线 寄存 器 在 EX、MEM 和 WB 级 的 控制 信号 
都 置 为 0， 就 可 以 在 流水 线 中 插入 一 个 气泡 。 这 些 控制 信号 在 每 个 时 钟 周期 都 向 前 传递 ， 产 
生 正 确 的 效果 : 如 果 控 制 信号 都 是 0， 那 么 所 有 寄存 器 和 存储 器 都 不 进行 写 操作 。 

图 4-58 描述 了 硬件 中 实际 发 生 的 情况 : 与 AND 指令 相关 的 流水 线 执行 槽 被 插入 一 条 空 
指令 ， 所 有 从 AND 开始 的 指令 都 被 延迟 一 个 时 钟 周期 。 就 像 水 管 中 的 气泡 ， 一 个 阻塞 的 气 
泡 会 延缓 后 面 所 有 指令 的 执行 ， 每 个 时 钟 周期 向 后 推进 一 级 ， 直 到 退出 流水 线 为 止 。 在 这 个 
例子 中 ， 冒 险 强 迫 AND 和 OR 指令 在 第 四 个 时 钟 周 期 重复 第 三 个 时 钟 周期 所 做 的 操作 : AND 
指令 读 寄 存 器 并 进行 译 码 , ORR 指令 被 从 指令 存储 器 中 取出 。 这 种 重复 的 工作 看 起 来 像 阻塞 ， 
但 其 效果 实际 是 拉 长 了 指令 AND 和 ORR 的 时 间 ， 并 且 延 迟 了 ADD 指令 的 取 指 。 

图 4-59 给 出 了 冒险 检测 单元 和 旁 路 单元 在 流水 线 中 的 连接 。 如 前 面 所 述 ， 旁 路 单元 控 
制 ALU 多 路 选择 器 ， 用 相应 的 流水 线 寄存 器 的 值 代替 通用 寄存 器 的 值 。 冒 险 检测 单元 控制 
PC 和 IF/ID 流水 线 寄存 器 的 写 入 ， 并 且 控 制 在 实际 控制 信号 值 与 全 0 中 进行 选择 的 多 路 选 
拌 器 。 如 果 上 面 的 读 后 写 ( load-use) 冒险 检测 为 真 ， 那 么 冒险 检测 单元 就 阻塞 并 清除 所 有 的 
控制 字段 。 如 果 你 想 了 解 更 多 细节 ，4.13 节 给 出 了 一 段 LEGv8 代码 的 单 时 钟 周期 流水 线 图 ， 
代码 中 含有 会 导致 阻塞 的 冒险 。 

也 尽管 编译 器 通常 依赖 于 硬件 解决 冒险 性 以 保证 指令 正确 执行 ， 但 编译 器 必须 了 解 
流水 线 ， 以 便 达 到 最 好 的 效果 。 和 否则 ， 未 预料 的 阻塞 会 降低 编译 代码 的 执行 效率 。 

| 辆 鲍 前面 提 到 为 了 避免 写 寄 存 器 或 存储 器 而 将 所 有 的 控制 信号 都 置 为 0， 事 实 上 只 需 
将 信号 RegWrite 和 MemWrite 置 为 0， 而 不 用 关心 其 他 控制 信号 。 
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时 间 ( 以 时 钟 周期 计 ) 
cei1 CC2 CC3 CC4 CC5 CC6 CC7 CC8 CCc9 CC10 





程序 执行 顺序 
【 按 指令 序 ) 


LDUR X2, [X1,#20] 





AND becomes nop 


AND X4, X2, X5 


ORR X8, X2, x6 





} ADD X9, x4, x2 








图 4-58 在 流水 线 中 插入 阻塞 的 方法 。 通 过 将 AND 指令 变 成 空 指令 ， 第 四 个 时 钟 周期 开始 插入 了 一 个 
气泡 。 注 意 ，AND 指令 实际 分 别 在 第 二 个 和 第 三 个 时 钟 周期 被 取 指 和 译 码 ， 但 EX 级 一 直 被 
推迟 到 第 五 个 时 钟 周期 (相对 于 第 四 个 时 钟 周期 不 阻塞 的 位 置 )。 与 此 类 似 ，ORR 指令 在 第 三 
个 时 钟 周期 被 取 指 ， 但 其 ID 级 一 直 被 推迟 到 第 五 个 时 钟 周期 (相对 于 不 阻塞 时 第 四 个 时 钟 周 
期 的 位 置 )。 在 插 人 气泡 后 ， 所 有 的 依赖 性 沿 时 间 前 进 ， 骨 险 不 再 发 生 
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图 4-59 流水 线 控制 概览 ， 包 括 两 个 用 于 旁 路 的 多 路 选择 器 、 冒 险 检测 单元 和 旁 路 单元 。 虽 然 ID 和 
EX 级 进行 了 简化 (省 略 了 立即 数 符号 扩展 和 分 支 逻辑 )， 但 本 图 说 明了 旁 路 硬件 的 基本 需求 
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4.8 控制 冒险 


目前 为 止 ， 我 们 只 考虑 了 算术 运算 和 数据 传输 中 的 冒险 。 然 而 ， | 对 政 悉 从 侧面 进行 上 千 次 
正如 4.5 节 所 述 ， 还 有 一 类 包含 分 支 的 流水 线 冒险 。 图 4-60 撒 述 了 | 区 去 ,也 此 不 上 从 根源 上 
一 个 指令 序列 ， 同 时 说 明了 在 该 流水 线 中 何 时 会 发 生 分 支 。 为 了 维 | 全 二， 

持 流水 线 的 运行 ， 每 个 时 钟 周期 都 必须 下 指 ， 但 在 我 们 的 设计 中 必 | wc, 14s 
须 等 到 MEM 级 才能 确定 分 支 是 否 发 生 。 如 4.5 节 所 述 ， 与 前 面 讨论 
的 数据 冒险 相对 ， 这 种 为 了 确定 取出 正确 指令 而 导致 的 延迟 称 为 控制 冒险 或 分 支 冒 险 。 


时 间 ( 以 时 钟 周期 计 ) 











CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8 CC9 


程序 执行 顺序 
【 按 指令 序 ) 


40 CBZ X1, 8 


44 AND X12, X2, X5 


48 ORR X13, X6, X2 





52 ADD X14, X2, X2 


下 — 


72 LDUR X4, [X7,#100] 
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图 4-60 分 支 指令 对 流水 线 的 影响 。 指 令 左 边 的 数字 (40，44，… ) 表示 指令 的 地 址 。 由 于 分 
支 指令 在 MEM 级 ( CBZ 指令 的 第 四 个 时 钟 周期 ) 才能 决定 是 否 进 行 分 支 ， 分 支 指令 
后 面 的 三 条 指令 将 被 取出 并 开始 执行 。 如 果 不 加 干涉 ， 这 三 条 指令 将 在 CB2 指令 跳 转 
到 地 址 72 处 的 LDUR 指令 之 前 就 开始 执行 了 (图 4-30 通过 引入 额外 的 硬件 从 而 将 控 
制 冒险 减少 到 一 个 时 钟 周期 ， 本 图 使 用 的 数据 通路 未 经 优化 ) 


本 节 对 于 控制 冒险 的 讨论 要 比 前 几 节 关于 数据 冒险 的 描述 短 得 多 。 原 因 在 于 ， 因 为 控制 
冒险 相对 易于 理解 ， 其 出 现 的 频率 也 比 数据 冒险 要 小 得 多 ,而 且 与 采用 旁 路 就 能 有 效 地 解决 
数据 冒险 相 比 ， 还 没有 有 效 的 方法 能 够 解决 控制 冒险 。 因 此 ， 我 们 使 用 较 简单 的 机 制 。 本 节 
将 介绍 两 种 解决 控制 冒险 的 方法 ,并 对 这 些 机 制 进行 优化 。 


4.8.1 假定 分 支 不 发 生 


如 4.5 节 所 述 ， 采 用 阻塞 直到 分 支 判断 完毕 才 来 处 理 控制 冒险 的 速度 太 慢 。 一 种 分 支 阻 
塞 的 改进 方法 是 甘 测 条 件 分 支 不 发 生 ， 并 继续 执行 顺序 的 指令 流 。 如 果 分 支 发 生 ,那么 已 
经 取出 并 译 码 的 指令 必须 被 丢弃 。 指 令 从 分 支 目标 处 继续 执行 。 如 果 分 支 不 发 生 的 可 能 性 是 
50%， 并 且 丢弃 指令 的 代价 很 小 ,那么 这 种 优化 方法 可 以 将 控制 冒险 的 代价 减 半 - 
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为 了 丢弃 指令 ， 只 需要 将 最 初 的 控制 信号 置 为 0， 这 一 点 与 通 ”| 清空: 将 流水 线 中 的 指令 
过 使 用 阻塞 解决 读 后 写 数据 冒险 类 似 。 不 同 之 处 在 于 当 分 支 指令 到 | 清除 挤 ， 适 常 由 意外 产生 
达 MEM 级 时 ， 必 须 分 别 改变 下 、ID 和 EX 级 中 的 三 条 指令 。 而 对 “| 的 事件 造成。 
于 读 后 写 阻塞 ， 只 需要 将 ID 级 的 控制 信号 置 为 0， 并 在 流水 线 中 传 
递 。 丢弃 指令 意味 着 我 们 必须 能 够 将 流水 线 下 、ID 和 EX 级 中 的 指令 都 清空 (flush)。 


4.8.2 ”减少 分 支 延 迟 


一 种 提高 分 支 效 率 的 方法 是 减少 分 支 发 生 的 成 本 。 目 前 为 止 ， 我 们 都 假设 在 MEM 级 才 
能 确定 分 支 的 下 一 个 PC。 但 如 果 我 们 在 流水 线 中 越 早 开始 条 件 分 支 的 执行 ， 那 么 需要 清空 的 
指令 就 越 少 。 将 分 支 决策 提前 ， 需 要 提前 两 个 动作 : 计算 分 支 目标 地 址 和 判断 分 支 条 件 。 提 
前 分 支 目 标 地 址 的 计算 相对 简单 。IF/ID 流水 线 寄存 器 中 已 经 有 了 PC 的 值 和 立即 数字 段 ， 所 
以 只 需要 将 计算 分 支 地 址 的 加 法 器 从 EX 级 移 到 ID 级 。 当 然 ， 尽管 对 所 有 指令 都 会 进行 分 支 
目标 地 址 的 计算 ， 但 仅 在 需要 时 才 会 使 用 。 

分 支 条 件 的 判断 较为 复杂 。 对 于 比较 为 0 分 支 (CBz)， 需 要 比较 从 ID 级 读 出 的 一 个 寄 
存 器 ， 判 断 其 值 是 否 为 0。 是否 为 0 可 以 通过 将 64 位 与 全 0 相 “ 或 ”进行 判断 。 将 分 支 条 件 
判断 提前 到 ID 级 ， 需 要 额外 的 旁 路 和 冒险 检测 硬件 ， 因 为 分 支 条 件 的 判断 可 能 依赖 于 还 在 
流水 线 中 的 结果 。 例 如 ， 为 了 实现 比较 为 0 分支 (或 比较 不 为 0 分 支 )， 我 们 需要 将 结果 旁 路 
到 工作 在 ID 级 的 0 检测 逻辑 。 这 里 有 两 个 比较 复杂 的 因素 ， 

e 在 ID 级 ， 必 须 对 指令 译 码 ， 决 定 是 否 需要 将 所 需 数据 旁 路 到 为 0 检测 单元 进行 检测 。 

如 果 是 分 支 指令 ， 我们 可 以 把 PC 设置 为 分 支 日 标 地 址 。 分 支 操作 数 的 旁 路 之 前 由 
ALU 旁 路 逻辑 来 完成 , 但 ID 级 0 检测 单元 的 引入 需要 新 的 旁 路 逻辑 。 必 须 注意 的 
是 ， 旁 路 的 分 支 源 操作 数 可 能 来 自 ALU/MEM 或 MEM/WB 流水 线 锁 存 器 。 

。 因为 ID 级 进行 分 支 比较 所 需 的 数据 可 能 在 后 面 才能 产生 ， 所 以 有 可 能 会 发 生 数据 冒 
险 ， 这 样 就 需要 阻塞 流水 线 。 例 如 ， 如 果 分 支 指令 前 刚好 是 一 条 ALU 指令 ， 而 这 条 
ALU 指令 的 结果 恰 是 分 支 指令 比较 所 需要 的 ， 那么 必然 产生 阻塞 ， 因 为 ALU 指令 的 
EX 级 将 在 分 支 指令 ID 级 后 发 生 。 此 外 ， 如 果 分 支 指令 前 刚好 是 一 条 load 指令 ， 并 
且 load 的 结果 恰 是 分 支 指令 判断 所 需要 的 ， 那 么 必须 产生 两 个 阻塞 ， 因 为 load 指令 
的 结果 将 在 MEM 级 结束 时 产生 ， 但 在 分 支 指令 ID 级 的 开始 时 就 会 用 到 。 

尽管 有 这 些 困难 ， 将 分 支 执行 提前 到 ID 级 依然 是 一 种 有 效 的 改进 ， 因 为 它 将 分 支 发 生 
时 预测 错误 的 代价 减 小 到 只 有 一 条 指令 ， 也 就 是 当前 正 被 取出 的 那 条 指令 。 下 面 的 例题 对 旁 
路 路 径 和 检测 冒险 的 实现 细节 进行 了 讨论 。 

为 了 在 正 级 清空 指令 ,我 们 加 入 了 一 条 称 为 IF.Flush 的 控制 信号 ， 即 将 IF/ID 流水 线 寄 
存 器 的 指令 字段 置 为 0。 清 空 寄存 器 的 结果 是 将 取 到 的 指令 转变 成 为 空 指令 ,该 指令 不 做 任 
何 操 作 ， 也 不 改变 机 器 的 状态 。 


| 例题 | 流水 线 分 支 。 
假定 流水 线 对 分 支 不 发 生 的 情况 进行 了 优化 ， 并 且 分 支 的 执行 提前 到 ID 级 。 试 说 明 下 
面 的 指令 序列 在 分 支 发 生 时 的 执行 情况 : 
36 SUB X10，X4，X8 
40 CBZ XL， X3， St PC-relative branch to 40+8*4=72 


48 ORR X13, Xx2, x6 
52 ADD X14, X4, x2 











区 至 于 233 





56 SUB X15, X6, X7 

72 LDUR X4， [X7.#50] 
| 答案 | 图 4-61 描述 了 分 支 产生 时 指令 序列 的 执行 情况 。 与 图 4-60 不 同 ， 这 里 在 一 个 发 生 的 
分 支 上 只 有 一 个 流水 线 气泡 。 













































































AND X12, X2.X5 | CBZ X1,8 ; SUBX10,X4,X8 ; before<t> ; before<2> 
IF Flush : 
EXMEM | 
了] MENmwe 
| 
x 
Data 
memory 
| 
) 四 
: 1 en 
: : wn 
Clock 3 : | - | 








i LDUR X4, [X7,100] ， Bubble (nop) ‘ CBZ X1, 8 ， SUB X10, ... ， before<1> 
ue : _ ! : ! 








azarg 
detection 
nt 




















































































































图 4-61 第 三 个 时 钟 周 期 的 ID 级 确定 分 支 是 否 发 生 ， 因 此 选择 地 址 72 作为 下 一 个 PC 地 址 ， 同 时 将 
为 下 一 个 时 钟 周期 取出 的 指令 置 为 0。 时 钟 周 期 4 描述 了 地 址 72 处 的 取 指 ， 以 及 因 分 支 发 生 
在 流水 线 中 产生 的 一 个 气泡 或 一 条 空 指令 
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4.8.3 动态 分 支 预测 


候 设 分 支 不 发 生 是 一 种 简单 的 分 支 预测 方法 。 在 这 种 情况 下 ， 总 是 预测 分 支 不 发 生 ， 如 
果 预 测 错误 就 清空 流水 线 。 对 简单 的 五 级 流水 线 而 言 。 这 种 方法 结合 基于 编译 器 的 预测 可 能 
就 已 足够 。 对 于 更 深 的 流水 线 而 言 ， 分 支 错误 将 耗费 更 多 的 时 钟 周期 。 类 似 地 ， 对 于 多 发 射 
( 见 4.10 节 )， 分 支 错误 的 代价 随 丢失 指令 数 的 增加 而 增加 。 这 种 组 合意 味 着 ， 在 一 个 激进 的 
流水 线 中 ， 简 单 的 静态 预测 机 制 将 可 能 浪费 大 量 的 性 能 。 如 4.5 节 所 述 ， 通 过 更 多 的 硬件 支 
持 ， 我 们 可 以 尝试 在 程序 执行 的 过 程 中 短 测 分 支 的 行为。 

一 种 方法 是 查找 指令 的 地 址 ， 判 断 该 指令 上 一 次 执行 时 分 支 是 Ca 
否 发 生 ， 如 果 发 生 ， 就 从 上 次 分 支 发 生 的 地 方 开始 取 新 的 指令 。 这 | ”恋人 到 本: 外埠 人 
种 技术 称 为 动态 分 支 预 测 (dynamic branch prediction)。 分 支 

上 述 方法 的 另 一 种 实现 方法 是 采用 分 支 预测 缓冲 ( branch pre- 
diction buffer) 或 分 支 历史 记录 表 ( branch history table)。 分 支 预测 分 支 预测 缓冲 : 也 称 为 分 
缓冲 是 一 小 块 按照 分 支 指令 的 低位 地 址 索引 的 存储 器 区 ， 其 中 包括 “| 支 历史 记录 未 。 一 小 次 术 
一 位 用 以 说 明 分 支 最 近 发 生 或 不 发 生 。 服 分 支 指 个 的 居 位 地 直 宁 

这 种 预测 使 用 了 最 简单 的 一 类 缓冲 区 ， 我 们 实际 上 并 不 知道 预 | 2 地 生生 由 人 六 用 人 
测 是 否 正确 ， 可 能 还 有 另 一 个 条 件 分 支 具有 相同 的 地 址 低位 。 尽 管 | 最 近 是 否 发 生 ， 

如 此 ， 这 并 不 影响 这 种 方法 的 正确 性 。 预 测 只 是 对 正确 分 支 方向 的 
一 种 假设 ， 在 这 个 基础 上 ， 沿 着 预测 的 方向 进行 取 指 。 如 果 这 种 假设 错误 ， 预 测 错误 的 指令 
将 被 出 除 ， 预 测 位 取 反 ， 正 确 的 指令 序列 将 被 取出 并 执行。 

这 种 简单 的 一 位 预测 位 机 制 有 一 个 性 能 缺陷 :即使 一 个 分 支 几乎 总 是 发 生 ， 我 们 仍 会 预 

测 错误 两 次 ， 而 不 是 分 支 不 发 生 时 的 一 次 。 下 面 的 例子 说 明了 这 种 情况 。 





| 例题 | 循环 与 预测 - 
我 们 来 看 一 个 循环 分 支 ， 在 一 行 上 分 支 发 生 了 9 次 ， 然 后 有 一 次 没有 发 生 。 假 设 分 支 的 
预测 位 保存 在 预测 缓冲 中 ， 那 么 该 分 支 的 预测 正确 率 是 多 少 ? 
| 答案 | 稳 态 /静态 (steady-state) 预测 会 在 第 一 次 和 最 后 一 次 的 循环 迭代 时 预测 错误 。 由 于 
分 支 在 一 行 上 发 生 了 9 次 ， 预 测 位 在 最 后 一 次 循环 时 会 被 设 为 分 支 发 生 ， 因 此 循环 最 后 一 次 
的 错误 预测 是 不 可 避免 的 。 第 一 次 迭代 时 预测 错误 ， 是 因为 预测 位 在 循环 的 上 一 次 迭代 的 前 
一 个 执行 时 被 设置 为 不 执行 (在 那 次 退出 的 迭代 中 分 支 并 没有 发 生 )。 因 此 ， 这 个 预测 方法 
在 分 支 发 生 90% 的 情况 下 预测 的 正确 性 只 有 80% (两 次 预测 错误 ，8 次 预测 正确 )。 一 一 一 * 


理想 情况 下 ， 对 于 高 度 规律 的 分 支 ， 预 测 器 的 正确 率 与 分 支 发 生 的 频率 相 匹 配 。 为 了 弥 
补 这 一 缺陷 ， 经 常 使 用 两 位 预测 位 的 方案 。 两 位 预测 位 方案 中 ， 预 测 位 改变 之 前 将 有 两 次 预 
测 错误 。 图 4-62 给 出 了 两 位 预测 位 的 有 限 状态 机 。 

分 支 预 测 缓冲 可 以 用 小 容量 的 专用 缓冲 实现 ， 在 流水 线 IF 级 通过 指令 地 址 访问 。 如 果 
预测 分 支 发 生 ， 那 么 一 旦 获得 新 的 PC 就 从 该 目标 地 址 处 开始 取 指 
(如 4.8.1 节 所 述 ， 可 以 早 至 ID 级 )。 和 否则 就 顺序 取 指 并 继续 执行 。 | 分 支 目标 缓冲 : 用 于 绥 在 分 
如 果 预 测 的 结果 错误 ， 就 按照 图 4-62 所 示 的 方法 改变 预测 位 。 ee 

f 志 位 (tag) 的 

团 嘱 分 支 巴 测 器 指出 分 支 是 否 发 生 ， 但 仍 需要 计算 分 支 目标 | ache 实现 ， 比 简单 的 分 到 

地 址 。 在 五 级 流水 线 中 ， 分支 目 标 地 址 的 计算 需要 一 个 时 钟 周期 ， | 预测 缓冲 成 本 更 高 
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即 分 支 发 生 将 需要 一 个 时 钟 周期 的 损失 。 可 以 通过 使 用 分 支 目标 缓冲 (branch target buffer) 
保存 分 支 目标 地 址 或 分 支 目标 指令 来 解决 。 


> 





图 4-62 两 位 预测 位 机 制 的 状态 图 。 通 过 使 用 两 位 (不 是 一 位 ) 预测 位 ， 在 分 支 经 常 发 生 或 经 常 不 发 生 
的 情况 下 (大 多 数 分 支 都 是 这 样 )， 只 会 预测 错误 一 次 。 两 位 可 以 对 系统 中 的 四 种 状态 进行 编 
码 。 两 位 方案 是 基于 计数 器 预测 方法 的 一 个 应 用 。 基 于 计数 器 的 预测 方法 ， 当 预测 成 功 时 计数 
器 加 1!， 预 测 失 败 时 计数 器 减 1， 然 后 使 用 计数 器 表示 范围 的 中 点 作为 分 支 与 不 分 支 的 分 界 点 


两 位 动态 预测 机 制 仅 使 用 某 个 特定 分 支 的 信息 。 研 究 人 员 发 现 ， | 相关 预测 器 : 将 藉 个 特定 
在 使 用 相同 数量 的 预测 位 的 情况 下 ， 同 时 使 用 局 部 分 支 和 最 近 执 行 分 支 的 万 者 有 为 和 非 还 入 
分 支 的 全 局 行为 信息 ， 能 够 产生 更 高 的 预测 正确 率 。 这 种 预测 器 称 为 。 | 中 竺 信 太 史 全 信 信忠 
相关 预测 器 ( correlating predictor)。 一 个 典型 的 相关 预测 器 为 每 个 分 
支 提供 两 个 两 位 的 预测 器 ， 其 选择 依据 是 上 次 分 支 执行 的 结果 (分 支 | 部 和 预测 器 ，_ 入 今天 
发 生 与 否 )。 因 此 ， 全 局 分 支行 为 可 以 被 看 成 是 在 预测 查找 表 中 加 入 | 测 器 ， 对 每 个 分 支 有 多 种 
额外 的 索引 位 。 预测 ， 有 一 个 选择 器 为 给 

还 有 一 种 分 支 预测 方法 是 使 用 竞争 预测 器 。 竞 争 预 测 器 (tourna- 和 
ment branch predictor) 对 每 个 分 支 使 用 多 个 预测 器 ， 并 记录 哪个 预测 
器 的 预测 结果 最 好 。 典 型 的 竞争 预测 器 对 每 个 分 支 地 址 有 两 个 预测 : 一 个 基于 局 部 信息 ， 另 
一 个 基于 全 局 分 支行 为 。 有 一 个 选择 器 用 于 选择 预测 器 。 选 择 器 的 操作 类 似 于 一 个 一 位 或 两 
位 的 预测 器 ， 当 然 两 位 预测 器 的 正确 率 更 高 。 最 新 的 一 些微 处 理 器 都 使 用 了 这 种 集成 预测 器 。 

| 精 解 一 种 减少 条 件 分 支 数 量 的 方法 是 加 入 条 件 移动 指令 ( conditional move instruction)。 
不 同 于 条 件 分 支 指令 改变 PC 值 ， 条 件 移动 指令 将 根据 条 件 改变 移动 的 目的 寄存 器 。 例 如 ， 完 
整 的 ARMv8 指令 集体 系 结构 中 有 一 条 条 件 选 择 指令 CSEL。 该 指令 需要 一 个 目的 寄存 器 、 两 
个 源 寄存 器 和 一 个 条 件 。 如 果 条 件 为 真 ， 目 的 寄存 器 获得 第 一 个 源 寄 存 器 的 值 ， 否 则 获得 第 
二 个 源 寄 存 器 的 值 。 因 此 ， 如 果 条 件 码 表明 操作 结果 不 等 于 0， 那 么 指令 CSEL X8,X11， 
X4,NE 将 把 X11 寄存 器 的 值 复制 到 X8 寄存 器 中 ， 和 否则 把 X4 寄存 器 的 值 复制 给 X11 寄存 
器 。 因 此 ， 采 用 ARMv8 指令 集 的 程序 中 的 条 件 分 支 比 采 用 LEGv8 核心 指令 集 的 程序 中 的 条 
件 分 支 更 少 。 
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4.8.4 流水 线 小 结 


我 们 从 洗衣 店 的 例子 开始 ， 展 示 了 日 常生 活 中 的 流水 线 原理 。 以 这 个 例子 类 比 ， 逐 步 解 
释 了 指令 的 流水 化 ， 即 在 单 周 期 数据 通路 的 基础 上 逐步 增加 流水 线 寄存 器 、 旁 路 路 径 、 数 据 
冒险 检测 ， 以 及 产生 分 支 预 测 错误 或 读 后 写 数据 冒险 时 指令 的 清空 。 图 4-63 给 出 了 最 终 的 
数据 通路 及 控制 。 现 在 我 们 已 经 准备 好 处 理 另 一 种 控制 冒险 : 异常 。 




































































图 4-63 本章 最 终 的 数据 通路 与 控制 。 本 图 是 一 个 概略 图 ， 没 有 覆盖 到 数据 通路 的 所 有 细节 ， 缺 少 了 
如 图 4-56 中 的 ALUsre 多 路 选择 器 和 图 4-50 中 的 多 路 选择 器 控制 





4.9 异常 使 一 台 计 算 机 具有 自动 各 


控制 是 处 理 器 设计 中 最 具 挑战 性 的 一 个 方面 ， 最 难 达 到 正确 ， | 名家 让 为首 汪 全 


也 最 难 提高 速度 。 控 制 要 完成 的 任务 之 一 是 实现 异常 (exception) 和 | 于 不 同 执行 阶段 的 指 今 数 
中 断 (interrupt) 一 一 除 分 支 以 外 改变 正常 指令 执行 流 的 事件 。 异 常 | 至 可 能 非常 多 。 
和 中 断 最 初 用 来 处 理 来 自 处 理 器 内 部 的 意外 事件 ， 如 浮 点 运算 溢出 。 | 人 so 人 Pareng a 


Computer System。 Project 
在 第 $ 章 中 我 们 将 看 到 ， 这 两 种 机 制 经 扩展 后 也 可 用 于 IO 部 件 与 ”| seeea， 1962 
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处 理 器 的 通信 。 

许多 体系 结构 和 作者 不 区 分 中 断 和 异常 ， 而 是 经 常 使 用 其 中 
一 个 指 代 两 种 类 型 的 事件 。 例 如 ，Intel x86 使 用 中 断 。 我 们 使 用 术 
语 异 常 指控 制 流 中 任何 意外 的 改变 ， 无论 其 产生 原因 是 来 自 处 理 器 
内 部 还 是 外 部 。 我 们 仅 用 术语 中 断 表示 外 部 引起 的 事件 。 下 面 的 例 
子 说 明了 哪些 是 处 理 器 内 部 产生 的 事件 ， 哪 些 是 外 部 产生 的 ， 以 及 


异常 : 也 称 为 中 断 ， 指 打 
断 程序 正常 执行 的 实 发 事 
件 ， 用 于 检测 溢出 等 。 





中 断 : 来 自 处 理 器 外 部 的 
异常 。 某 些 体系 结构 也 用 
“中 断 ” 表 示 所 有 的 异常 。 


























ARM 中 使 用 的 名 称 。 
系统 重 秆 四 外 部 异常 
”WO 设备 请 求 外 部 中 断 
从 用 户 程序 进行 操作 系统 调用 内 部 | 异常 
“ 浮 点 算术 运算 上 滋 或 下 溢 内 部 | 异常 
使 用 未 定义 的 指令 es | 上 时 ”| 中 
硬件 故障 内 部 或 外 部 。 “| 异常 或 中 断 | 





导致 异常 发 生 的 特殊 情况 对 异常 处 理 的 支持 提出 了 诸多 要 求 。 第 5 章 将 再 次 讨论 这 个 话 
题 ， 那 时 我 们 将 更 好 地 理解 异常 机 制 的 额外 支持 。 本 节 讨 论 两 种 异常 检测 机 制 ， 这 些 异 常 从 
我 们 已 讨论 过 的 指令 集 及 其 实现 产生 。 

检测 异常 条 件 并 采取 适当 的 措施 ， 通 常 处 于 处 理 器 的 关键 路 径 上 。 该 路 径 决定 了 时 钟 周 
期 的 长 度 以 及 处 理 器 的 性 能 。 如 果 在 控制 单元 的 设计 中 没有 充分 考虑 异常 ， 那 么 在 复杂 实现 
中 加 入 异常 支持 会 明显 降低 性 能 ， 并 使 设计 更 加 复杂 。 


4.9.1 LEGv8 体系 结构 中 的 异常 处 理 


目前 实现 中 可 能 产生 的 异常 是 未 定义 指令 的 执行 、 浮 点 的 上 涕 和 下 溢 ， 以 及 硬件 故 
障 。 在 接 下 来 的 部 分 ， 我 们 将 以 ADD Xx1，X2，X1 指令 执行 中 产生 的 硬件 故障 作为 异常 的 例 
子 。 异 常 发 生 时 ， 处 理 器 必须 进行 的 基本 操作 是 ， 将 出 错 指令 的 地 址 保存 在 骨 常 链接 寄存 器 
(Exception Link Register，ELR) 中 ， 然 后 把 控制 权 转交 给 操作 系统 的 特定 地 址 。 

操作 系统 可 以 采取 适当 的 行动 ， 如 给 用 户 程 序 提供 一 些 服 务 ， 对 故障 执行 预定 义 的 操 
作 ， 或 终止 程序 的 执行 并 报告 错误 。 在 完成 处 理 异 常 所 需 动作 后 ， 操 作 系 统 可 以 终止 程序 ， 
也 可 以 继续 执行 程序 ， 通 过 使 用 ELR 决定 从 哪里 开始 重新 执行 。 第 5 章 将 更 详细 地 讨论 重 
新 开始 执行 的 问题 。 

为 了 处 理 异常 ， 操 作 系 统 除 了 要 知道 是 哪 条 指令 引起 异常 之 外 ， 还 必须 知道 引起 异常 的 原 
因 。 主 要 有 两 种 方法 用 于 确定 产生 异常 的 原因 。LEGv8 中 使 用 的 方法 是 设置 一 个 寄存 器 ( 称 为 异 
常 综合 寄存 器 (Exception Syndrome Register, ESR ) )， 该 寄存 器 中 有 一 个 字段 用 于 指出 异常 的 原因 。 

第 二 种 方法 是 使 用 向 量 中 断 ( vectored interrupt)。 在 向 量 中 断 
中 ,控制 权 被 转移 到 的 地 址 由 异常 原因 决定 ， 通 常 加 到 指明 向 量 中 | 向 量 中 断 : 由 措 常 原因 决定 
断 存储 器 范围 的 基 址 寄存 器 上 。 例 如 ， 我 们 可 以 为 一 些 异常 类 型 定 | 中 疡 控制 竺 各地 直 的 中 
义 下 列 异 常 向 量 地 址 : 








未 知 原因 
浮 点 算术 异常 eR 10 1100,, 
系统 错误 | 硬件 故障 ) 101111, 
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操作 系统 根据 异常 开始 的 地 址 得 知 导致 异常 的 原因 。 当 出 现 的 异常 不 属于 向 量 异常 时 ， 
如 LEGv8 中 ， 那 么 所 有 异常 可 以 使 用 单个 人 口 点 ， 并 且 操 作 系统 对 状态 寄存 器 进行 译 码 以 
找到 原因 。 对 于 带 有 向 量 异常 的 体系 结构 ， 地 址 由 32 字 节 或 8 条 指令 进行 分 割 ， 并 且 操 作 
系统 必须 记录 异常 的 原因 ， 并 依 此 顺序 执行 一 些 有 限 的 处 理 。 

通过 在 基本 实现 中 加 入 一 些 额 外 的 寄存 器 和 控制 信号 ， 并 将 控制 进行 一 些 扩展 ， 就 可 以 
处 理 异常 。 假 设 我 们 所 实现 的 异常 系统 有 单个 中 断 入 口 点 ， 地 址 为 0000 0000 1C09 0000hex。 
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(实现 向 量 异 常 也 不 难 。) 需要 在 当前 的 LEGv8 实现 中 加 入 两 个 寄存 器 : 
e ELR: 64 位 寄存 器 ， 用 于 保存 异常 指令 的 地 址 (向量 异常 也 需要 这 样 一 个 寄存 器 )。 
e ESR : 记录 异常 原因 的 寄存 器 。 在 LEGv8 体系 结构 中 ,该 寄存 器 为 32 位 ， 虽 然 其 中 
一 些 位 当前 没有 使 用 。 假 定 有 一 个 字段 对 前 面 提 到 的 三 种 可 能 的 异常 原因 进行 编码 ， 

8 代表 未 定义 指令 ，10 代表 算术 上 溢 和 下 溢 ，12 代表 硬件 故障 。 


4.9.2 ”流水线 实现 中 的 异常 


在 流水 线 实现 中 ， 异 常 被 视 为 男 一 种 形式 的 控制 冒险 。 例 如 ， 假 设 指令 ADD 产生 了 一 
个 硬件 故障 。 正 如 上 一 节 对 分 支 发 生 的 处 理 ， 我 们 必须 清空 流水 线 中 ADD 指令 后 的 一 系列 
指令 ， 并 从 新 的 地 址 开始 取 指 。 我 们 将 使 用 与 分 支 发 生 相同 的 机 制 ， 但 这 时 异常 将 造成 控制 
信号 置 为 无 效 。 
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图 4-64 ”处理 异常 的 数据 通路 与 控制 。 主 要 增加 的 部 分 包括 : 在 PC 多 路 选择 器 中 增加 了 一 个 新 的 输入 
0000 0000 1C09 0000tex， 一 个 记录 异常 产生 原因 的 ESR 寄存 器 ， 以 及 一 个 保存 导致 异常 的 指 
令 地 址 的 ELR 寄存 器 。0000 0000 1C09 0000hex 是 发 生 异 常 时 开始 取 指 的 初始 地 址 


在 处 理 分 支 预测 错误 时 ， 我 们 已 经 了 解 了 如 何 通过 将 下 级 的 指令 转换 成 nop 来 清空 指 
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令 。 为 了 清空 ID 级 的 指令 ,我 们 使 用 ID 级 已 有 的 多 路 选择 器 ， 将 控制 信号 演 零 以 产生 阻 
塞 。 一 个 称 为 ID.Flush 的 新 控制 信号 与 冒险 检测 单元 的 阻塞 信号 相 或 ， 用 以 清空 ID 级 的 指 
邻 。 为 了 清空 EX 级 的 指令 ， 我 们 使 用 一 个 称 为 EX.Flush 的 新 信号 ， 用 其 控制 新 的 多 路 选择 
器 将 控制 信号 置 零 。 为 了 从 0000 0000 1C09 0000sex 地 址 ( LEGv8 异常 地 址 ) 处 开始 取 指令 ， 
只 要 简单 地 在 PC 多 路 选择 器 上 加 入 一 个 额外 的 输入 ， 将 0000 0000 1C09 0000he 传递 到 PC。 
图 4-64 描述 了 这 种 变化 。 

这 个 例子 指出 了 异常 存在 的 一 个 问题 ， 即 如 果 在 指令 执行 期 间 不 中 止 指令 的 执行 ,那么 
程序 员 将 无 法 看 到 寄存 器 Xl 的 原始 值 ， 因 为 x1 将 作为 指令 ADD 的 目的 寄存 器 被 冲 掉 。 假 
设 异常 在 EX 级 检测 到 ， 那 么 我 们 可 用 EX.Flush 信号 避免 EX 级 的 指令 在 WB 级 写 回 结果 。 
很 多 异常 需要 将 引起 异常 的 指令 像 正 常 执 行 一 样 执行 完 。 实 现 这 一 点 最 简单 的 方法 是 清空 这 
条 指令 ， 然 后 在 异常 处 理 完 后 再 重新 执行 这 条 指令 。 

最 后 一 步 是 将 导致 异常 的 指令 的 地 址 保存 到 异常 链接 寄存 器 (ELR) 中 。 图 4-64 给 出 了 
一 个 数据 通路 ， 包 括 分 支 硬件 以 及 为 处 理 异 常 所 进行 的 必要 调整 。 


| 例题 | 流水 线 计算 机 中 的 异常 
给 出 以 下 指令 序列 : 


40,。。 SUB X11. X2, Xx4 
44w AND X12, X2, Xx5 
dB ORR X13, X2, x6 
4Cu ADD XI1。 X2. x1 
S50 SUB X15, Xx6, X7 
Sd LDUR X16, [X7,#100] 





假定 异常 处 理 程序 的 开始 部 分 如 下 : 


1C090000,。 STUR X26，[X0,#1000] 
1c090004™ STUR X27，[X0,#1008] 


如 果 ADD 指令 发 生 异常 ， 那 么 流水 线 中 会 发 生 什 么 情况 ? 

| 答案 | 图 4-65 给 出 了 从 ADD 指令 的 EX 级 开始 发 生 的 情况 。 假 设 在 该 级 检测 到 硬件 故 
障 ”，0000 0000 1C09 0000bex 被 强制 送 入 PC。 在 第 7 个 时 钟 周 期 ,， ADD 指令 及 其 后 面 的 指 
令 被 清空 ， 并 且 异 常 代码 的 第 一 条 指令 被 取出 。 注 意 ，ADD 指令 下 一 条 指令 的 地 址 ( 4Chex+ 
4= 50tex) 被 保存 下 来 。 和 





前 面 提 到 了 几 个 异常 的 例子 ， 第 5 章 还 会 给 出 其 他 的 例子 。 任 何 时 钟 周期 流水 线 中 都 有 
五 条 活跃 指令 ， 央 此 如 何 确定 哪 条 指令 引起 了 异常 是 一 个 挑战 。 并 且 ， 一 个 时 钟 周期 内 还 可 
能 发 生 多 个 异常 。 解 决 方法 是 对 异常 划分 优先 级 ， 当 多 个 异常 同时 发 生 时 以 使 决定 先 处 理 哪 
个 。 在 LEGv8 实现 中 ,硬件 对 异常 进行 排序 ， 从 而 使 得 最 先 发 生 的 指令 被 中 断 。 

IO 设备 请 求 与 硬件 故障 并 不 与 特定 的 指令 相关 ， 因 此 在 中 断 流水 线 的 时 机 的 实现 上 有 具 
有 一 定 的 灵活 性 。 因 此 ， 用 于 其 他 异常 的 机 制 在 这 里 也 可 以 很 好 地 工作 。 

ELR 捕 提 被 中 断 指令 的 地 址 ， 如 果 产 生 多 个 异常 ,那么 ESR 寄存 器 记录 优先 级 最 高 的 
异常 事件 。 


日 ”如 溢出 。 一 一 译 者 注 
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LDUR X16, [X7,#100] ; SUB X15, X6, X7 ADD X1, X2, xX1 |; ORR X13, ..; AND X12,... 


EX Fiush 





IF Flush 































































































STUR X26, [X0,#1000] ， bubble(nop) bubble bubble 1 OR X13,... 











iF Flush 



































Clock 7 





图 4-65 ADD 指令 硬件 故障 导致 的 异常 。 时 钟 周 期 6 的 EX 级 检测 到 异常 ， 将 ADD 后 一 条 指令 的 地 
址 (4C+4=50bex) 保存 到 ELR 寄存 器 中 。 在 该 周期 结束 时 所 有 的 Flush 信号 都 设置 为 1， 并 将 
ADD 的 控制 信号 设 为 无 效 ( 置 为 0 )。 时 钟 周 期 7 显示 了 流水 线 中 转化 为 气泡 的 指令 和 取出 的 
异常 处 理 程序 的 第 一 条 指令 STUR X25,[x0. 提 000] (从 指令 地 址 0000 0000 1C09 0000he, 处 取得 )。 
注意 ，ADD 之 前 的 AND 指令 和 ORR 指令 仍然 会 执行 完毕 





i 


硬件 与 操作 系统 必须 协同 工作 ， 才 能 按照 人 们 期 望 的 方式 处 理 异 常 。 
硬件 处 理 过 程 通常 包括 : 暂停 指令 流 中 导致 异常 的 指令 ， 同 时 执行 完 该 指令 前 的 所 有 指令 ， 
清空 该 指令 后 的 所 有 指令 ， 并 且 设置 一 个 寄存 器 描述 异常 发 生 的 原因 ， 保 存 导致 异常 发 生 的 
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指令 的 地 址 ， 然 后 跳 转 到 预先 约定 的 地 址 开始 执行 。 操 作 系统 的 处 理 过 程 包括 : 查看 异常 发 
生 的 原因 ， 并 采取 相应 的 操作 。 对 于 一 个 未 定义 指令 或 硬件 失效 引起 的 异常 ， 操 作 系 统 通常 
终止 程序 的 执行 并 返回 对 失效 原因 的 描述 。 对 于 LO 设备 请 求 或 操作 系统 服务 调用 ， 操 作 系 
统 保 存 程 序 的 当前 状态 ， 执 行 所 需 的 任务 ， 然 后 在 某 个 时 刻 重 新 载 入 程序 继续 运行 。 在 IO 
设备 请 求 的 情况 下 ， 我 们 可 能 经 常 需 要 在 继续 执行 发 出 IO 设备 请 求 的 任务 前 先 运 行 男 一 个 
任务 ， 因 为 发 出 I/O 设备 请 求 的 任务 一 般 在 1/O 完成 之 后 才能 继续 执行 。 正 因为 有 异常 处 理 ， 
保存 和 恢复 任务 的 状态 非常 重要 。 最 重要 且 频 繁 出 现 的 异常 之 一 是 缺 页 与 TLB 异常 。 第 5 
章 将 详细 描述 这 些 异 常 及 其 处 理 过 程 。 

| 哺 铀 | 在 流水 线 计 算 机 中 ， 将 异常 与 导致 异常 的 指令 对 应 起 来 的 难度 很 大 ， 因 此 一 些 计 
算 机 设计 师 在 一 些 非 关键 情况 下 降低 了 这 种 要 求 。 这 种 处 理 器 一 般 称 为 具有 非 精确 中 断 
(imprecise interrupt) 或 者 非 精确 异常 (imprecise exception)。 在 上 面 的 例子 中 ， 尽 管 导致 异常 
的 指令 地 址 是 4Chee， 但 在 检测 到 异常 后 下 一 个 时 钟 周期 开始 时 PC 
的 值 通常 为 58hex。 具 有 非 精 确 异 常 处 理 的 处 理 器 可 能 会 将 58nes 放 入 | 非 精 确 中 断 : 也 称 为 非 精 
ELR 中 ， 并 让 操作 系统 确定 是 哪 一 条 指令 导致 了 异常 。LEGv8 以 及 | 确 异 常 。 流 水 线 计算 机 中 
当前 的 大 量 主流 处 理 器 都 提供 精确 中 断 precise interrupt) 或 精确 异 | 9 站 末 交 并 汕 ， 当中 
常 (precise exception)。 原 因 之 一 是 ， 深 度 流水 线 (流水 线 中 具有 较 
多 的 级 数 ) 的 设计 师 可 能 想 要 在 ELR 中 记录 一 个 不 同 的 值 ， 但 这 可 | 精确 中 断 : 也 称 为 精确 异 
能 给 操作 系统 造成 麻烦 。 为 了 避免 这 种 情况 ， 较 深 的 流水 线 需 要 记 eg 
录 和 五 级 流水 线 中 相同 的 PC。 而 仅 记录 错误 指令 的 PC 要 更 为 简 | 后 吉 并 党 的 指 人 关联 。 
单 。( 另 一 个 原因 是 为 了 支持 虚拟 存储 器 ， 第 5 章 将 对 此 进行 介绍 。) 

网 泌 LEGv8 基于 ARMv8 体系 结构 ， 使 用 0000 0000 1C09 0000bex 作为 异常 入 口 。 根 
据 平台 的 不 同 ，ARMv8 可 能 有 不 同 的 异常 入 口 地 址 。 

上 畏 解 LEGv8 中 的 异常 分 为 三 级 ,每 一 级 都 有 独立 的 ELR 和 ESR 寄存器， 第 5 章 中 将 
详细 介绍 。 








4.10 ”指令 级 并 行 


本 节 是 对 一 些 有 趣 但 较为 复杂 的 高 级 主题 的 概述 。 如 果 你 希望 了 解 更 多 的 细节 ， 可 以 参 
考 我 们 的 另 一 本 教材 :《 计 算 机 体系 结构 : 量化 研究 方法 》( 第 5 版 )。 本 节 大 约 13 页 的 内 容 
在 该 书 中 扩充 到 近 200 页 ( 含 附录 ) ! 

页 有 绕 控 气 了 指令 间 潜 在 的 鼎 莉 性 。 这 种 并 行 被 称 为 指令 级 并 行 ( Instruction-Level 
Parallelism，ILP)。 有 两 种 方法 可 以 增加 潜在 的 指令 级 并 行程 度 。 第 一 种 是 增加 流水 线 的 深 
度 ， 以 便 让 更 多 的 指令 重 双 执行。 仍 使 用 洗衣 店 的 例子 类 比 ， 假 设 洗 漆 周 期 比 其 他 周期 要 长 ， 
那么 我 们 可 以 进一步 把 洗涤 过 程 划分 成 三 个 机 器 的 任务 ， 分 别 完成 
原 洗衣 机 的 洗涤 、 漂 洗 、 脱 水 三 个 步骤 。 原 来 的 四 级 流水 线 变 成 了 | 指令 级 并 行 : 指令 问 的 并 
六 级 流水 线 。 为 了 达到 完全 的 加 速效 果 ， 我 们 需要 重新 平衡 其 他 步 。| 行 性 。 
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了 又， 以 使 得 每 个 步骤 长 度 相 同 ， 这 一 点 在 处 理 器 和 洗衣 店 中 都 是 一 样 的 。 因 为 有 更 多 的 操作 
可 以 重合 执行 ， 所 以 可 以 挖掘 出 更 高 的 并 行 度 。 由 于 时 钟 周 期 缩短 ， 性 能 也 会 得 到 潜在 的 
提升 。 
另 一 种 方法 是 复制 计算 机 内 部 部 件 的 数量 ,使 得 每 个 流水 级 | 多 发 射 : 一 种 单 时 钟 周 其 
都 可 以 支持 多 条 指令 执行 。 这 种 技术 一 般 被 称 为 多 发 射 ( multiple | 内 发 射 多 条 指令 的 机 制 
issue)。 一 个 多 发 射 的 洗衣 店 会 把 一 台 洗 衣 机 和 烘 干 机 替换 为 三 台 洗 
衣 机 和 三 台 烘 干 机 ， 同 时 还 需要 雇用 更 多 的 帮工 在 同样 的 时 间 内 折 芭 和 打包 相对 原来 三 倍 的 
衣服 。 这 种 方法 的 缺点 是 需要 额外 的 工作 让 所 有 机 器 同时 运转 并 将 负载 传递 到 下 个 流水 级 。 
在 每 一 级 启动 多 条 指令 允许 指令 执行 率 超 过 时 钟 频率 ， 也 就 是 CPI 小 于 1。 正 如 第 1 章 
所 述 ， 有 时 候 可 以 使 用 相反 的 标准 ， 即 IPC (每 时 钟 周期 执行 的 指令 数 ) 作为 度量 。 因 此 ， 
一 个 3GHz 四 路 多 发 射 微 处 理 器 能 以 每 秒 120 亿 指令 的 峰值 速率 执行 ， 其 最 好 情况 下 的 CPI 
达到 0.33， 或 IPC 达到 3。 假设 是 五 级 流水 线 ， 这 个 处 理 器 任何 时 刻 都 可 能 有 15 条 指令 在 
同时 执行 。 当 前 的 高 端 微 处 理 器 尝试 在 每 个 时 钟 周 期 发 射 3~6 条 指令 。 甚 至 中 端 设 计 都 有 
IPC 为 2 的 目标 峰值 。 然 而 ， 一般 来 说 存在 很 多 约束 ， 如 哪些 类 型 的 指令 可 以 同时 执行 ， 以 
及 产生 依赖 时 会 发 生 什么 。 
实现 多 发 射 处 理 器 主要 有 两 种 方式 ， 主 要 区 别 是 编译 器 和 硬件 | 静态 多 发 射 ， 实 现 多 用 
之 间 的 工作 分 工 。 工 作 分 工 是 指 决策 是 静态 决定 〈 编 译 时 决定 ) 还 是 | 处 理 器 的 一 种 方法 ， 其 中 
动态 决定 (执行 时 决定 )， 因 此 这 两 种 方式 有 时 也 被 称 为 静态 多 发 射 关 汪 在 委 称 双 玫 车 失 弘 
( static multiple issue) 和 动态 多 发 射 (dynamic multiple issue)。 两 种 
方式 还 有 其 他 更 通用 的 名 字 ， 但 这 些 名 字 可 能 没 那么 精确 ， 或 有 更 “| 动态 多 发 射 ， 关 现 多 发 和 
多 的 限制 。 处 理 器 的 一 种 方法 ， 其 
多 发 射流 水 线 必须 处 理 以 下 两 个 主要 上 且 必需 的 任务 : 下 半 香 在 浆 硬 种 扩 本 级 
。 将 指令 打包 到 发 射 术 (issue slot) 中 。 处 理 器 如 何 确定 在 给 定 | 字 * 
的 时 钟 周期 发 射 多 少 条 指令 以 及 发 射 何 种 指令 ?在 大 多 数 静 | 发 射 柱 : 能 在 给 定时 钟 周 
态 发 射 处 理 器 中 ， 这 个 过 程 至 少 有 一 部 分 是 由 编译 器 处 理 | 期 内 发 射 指令 的 位 置 ， 可 
的 。 而 在 动态 发 射 处 理 器 中 ， 这 个 问题 一 般 是 由 处 理 器 在 运 ee 
行 时 处 理 的 ， 尽 管 编译 器 经 常 已 经 尝试 通过 调整 指令 顺序 以 '， 
帮助 提高 发 射 率 。 
e 处 理 数据 冒险 和 控制 冒险 。 在 静态 发 射 处 理 器 中 ， 编 译 器 静态 处 理 部 分 甚至 全 部 的 数 
据 冒 险 和 控制 冒险 。 相 反 ， 大 多 数 动态 发 射 处 理 器 试图 通过 在 执行 时 使 用 一 些 硬件 技 
术 消 除 某 些 类 型 的 冒险 。 
尽管 这 里 我 们 把 它们 看 成 两 种 不 同 的 方法 ， 但 实际 上 这 两 种 方法 经 常 借用 对 方 的 技术 ， 
没有 哪 一 种 方法 可 以 称 得 上 是 完全 独立 的 。 


4.10.1 推测 的 概念 


推测 是 寻找 和 挖掘 更 多 ILP 最 重要 的 方法 之 一 。 基 于 甘油 这 一 伟大 思想 ， 推 测 
(speculation) 允许 编译 器 或 处 理 器 “猜测 ”指令 可 能 的 执行 情况 ， Bd 
a i 推测 : 一 种 编译 器 或 处 理 
使 依赖 于 被 推测 指令 的 其 他 指令 可 以 执行 。 例 如 ， 我 们 可 以 推测 分 | 器 推 测 指令 结果 以 消除 执 
支 指令 的 结果 ， 这 样 分 支 后 面 的 指令 就 可 以 提前 执行 。 另 一 个 例子 | 行 其 他 指令 对 该 结果 的 依 
是 ， 推 测 load 前 的 store 指令 访问 的 存储 器 地 址 和 load 不 同 ， 从 而 | 闲 的 方法 。 
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允许 load 指令 提前 到 store 指令 之 前 执行 。 推 测 的 难点 在 于 推测 可 能 错误 。 因 此 ， 任 何 推测 
机 制 必须 既 包含 一 种 方法 能 检查 推测 是 否 正确 ， 又 包含 一 种 方法 能 在 推测 错误 时 回 滚 或 取消 
已 推测 执行 的 指令 的 影响 。 实 现 这 种 回 滚 能 力 增加 了 额外 的 复杂 性 。 

推测 可 以 由 编译 器 或 硬件 完成 。 例 如 ， 编 译 器 可 以 利用 推测 对 指令 进行 重 排序 ， 将 一 条 
指令 移 过 分 支 ， 也 可 将 load 指令 移 到 store 指令 之 前 。 而 通过 使 用 本 节 稍 后 将 讨论 的 技术 ， 
处 理 器 硬件 也 可 以 在 运行 时 实现 同样 的 转换 。 

但 软 硬 件 推测 的 错误 恢复 机 制 非常 不 同 。 对 于 软件 推测 ， 编 译 器 经 常 插入 额外 的 指令 
以 检查 推测 的 正确 性 并 提供 一 个 专门 的 修复 例 程 供 推测 错误 时 使 用 。 对 于 硬件 推测 ， 处 理 
器 经 常 缓存 推测 的 结果 ， 直 至 推测 的 结果 得 到 确认 。 如 果 推 测 是 正确 的 ， 缓 存 的 结果 写 回 
寄存 器 文件 或 存储 器 ， 指 令 执行 完成 。 如 果 推 测 错误 ， 硬 件 将 清空 缓存 ， 并 重新 执行 正确 
的 指令 序列 。 推 测 错误 通常 需要 清空 流水 线 或 者 至 少 造成 流水 线 阻 塞 ， 从 而 进一步 降低 了 
性 能 。 

推测 还 可 能 导致 另 一 个 问题 : 对 某 些 指令 的 推测 可 能 会 导致 原本 不 存在 的 异常 产生 。 例 
如 ,假设 一 条 load 指令 被 按 推测 方式 移动 了 ,但 是 在 推测 错误 的 情况 下 ， 该 指令 所 使 用 的 
地 址 是 非法 的 。 此 时 ,一 个 原本 不 应 发 生 的 异常 发 生 了 。 该 问题 复杂 的 原因 存 于 ， 如 果 这 条 
load 指令 不 是 推测 的 ， 那么 该 异常 必然 发 生 。 在 基于 编译 器 的 推测 中 ， 这 类 问题 可 以 通过 加 
人 特殊 的 推测 支持 来 避免 ， 即 暂时 忽略 这 些 异 常 ， 直 至 可 以 确定 异常 必须 发 生 。 在 基于 硬件 
的 推测 中 ， 异 常 将 被 简单 地 缓存 起 来 ， 直 到 导致 异常 的 指令 不 再 是 推测 的 9， 此 时， 异常 产生 
并 进入 正常 的 异常 处 理 程序 。 

推测 在 猜测 正确 时 能 改进 性 能 ， 而 不 慎 使 用 可 能 降低 性 能 ， 因 此 需要 大 量 的 工作 来 决定 
何 时 采用 推测 。 本 节 后 半 部 分 将 介绍 静态 和 动态 的 推测 技术 。 


4.10.2 静态 多 发 射 


静态 多 发 射 处 理 器 都 使 用 编译 器 来 帮助 封装 多 条 指令 以 及 处 理 “| 发 射 包 : 在 一 个 时 钟 周期 
冒险 。 在 一 个 静态 发 射 处 理 器 中 ， 可 以 在 给 定 的 时 钟 周期 内 发 射 一 | 内 发 射 的 多 条 指令 的 集 
个 指令 集合 ， 也 称 为 发 射 包 (issue packet)。 发 射 包 就 像 一 条 很 长 的 “| 今 ， 从 电 编 主 器 静态 区 

by 法 定 ， 也 可 以 由 处 理 器 动态 

带 有 多 个 操作 的 指令 。 这 种 观点 不 只 是 为 了 进行 类 比 。 因 为 静态 多 | 有 二 
发 射 处 理 器 一 般 对 一 个 给 定 的 时 钟 周期 内 能 发 射 的 指令 有 所 限制 ， 
因此 可 以 把 发 射 包 看 成 允许 同时 进行 多 个 操作 的 一 条 指令 (有 多 个 “| 超 长 指令 字 ， 一 种 指 仿 集 
预定 义 的 操作 码 字 段 )。 这 种 观点 引出 了 这 种 方法 的 最 初 名 字 : 超 长 ”| 体系 结构 ， 可 以 将 多 个 独 
指令 字 (Very Long Instruction Word，VLIW)-。 立 的 操作 放 在 单一 的 一 条 

绝 大 多 数 静态 多 发 射 处 理 器 也 依赖 编译 器 处 理 数据 由 险 和 控制 | 可 全， # 生 个 人 
冒险 。 编 译 器 的 任务 可 能 包括 静态 分 支 预测 和 代码 调度 ， 以 减少 或 
阻止 所 有 的 冒险 。 下 面 先 来 看 一 个 简单 的 静态 多 发 射 LEGv8 处 理 器 的 例子 ， 这 些 技术 将 在 
后 续 描述 的 更 先进 的 处 理 器 中 采用 。 

实例 : LEGv8 指令 集 的 静态 多 发 射 

为 了 理解 静态 多 发 射 ， 我 们 先 考查 一 个 简单 的 双 发 射 LEGv8 处 理 器 ， 其 中 一 条 指令 可 
以 是 整 型 ALU 操作 或 分 支 ， 另 一 条 指令 可 以 是 load 指令 或 store 指令 -。 在 某 些 嵌 人 式 处 理 
ER 

中 即 确定 会 执行 - 一 译 者 注 
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器 中 采用 与 此 类 似 的 设计 。 每 个 时 钟 周期 发 射 两 条 指令 意味 着 需要 取出 并 译 码 64 位 的 指令 。 
很 多 静态 多 发 射 处 理 器 ， 甚 至 所 有 的 VLIW 处 理 器 ， 都 严格 限制 了 可 同时 发 射 的 指令 ， 以 简 
化 译 码 和 发 射 过 程 。 因 此 ， 我 们 要 求 指令 必须 成 对 ， 并 按 64 位 边界 对 齐 存放 ， 并 且 将 ALU 
指令 或 分 支 指令 放 在 前 面 。 此 外 ， 如 果 一 对 指令 中 有 一 条 指令 不 能 使 用 ， 那么 就 用 nop 指 
令 代替 。 因 此 ， 指 令 总 是 成 对 发 射 ， 其 中 一 个 槽 中 可 能 是 一 条 nop 指令 。 图 4-66 给 出 了 指 
令 成 对 出 现在 流水 线 中 的 情况 。 






































3 
ALU 或 分 支 | ID | Ex[| MM | we | | 
load 或 store iF |iD | Ex | MM | we | | 
ALU 或 分 支 FF | ID Ex | MEM | WB | 
load 或 store IF | Io | Ex | MEM | we | 
ALU 或 分 支 IF ID EX | MEM | we | 
load 或 store 加 ID EX | MEM | we | 
ALU 或 分 支 IF ID_ | &x MEM | WB 
load 或 store | IF ID | Ex MEM | WB 


























图 4-66 静态 双 发 射流 水 线 。ALU 指令 与 数据 传输 指令 同时 发 射 。 这 里 假设 使 用 与 单 发 
射 相 同 的 五 级 流水 线 。 虽 然 并 非 严格 如 此 ， 但 使 用 五 级 流水 确实 会 带 来 一 些 好 
处 。 特 别 是 在 流水 线 的 最 后 写 寄存 器 ， 可 以 简化 异常 处 理 ， 还 可 以 简化 精确 异 
常 模 型 的 维护 ， 而 这 些 问题 在 多 发 射 处 理 器 中 变 得 更 难以 处 理 


静态 多 发 射 处 理 器 之 间 的 不 同 在 于 如 何 处 理 潜在 的 数据 骨 险 和 控制 冒险 。 在 有 些 设 
计 中 ,编译 器 全 权 负 责 移 除 所 有 冒险 、 调 度 指令 、 插 入 nop 指令 ， 从 而 使 得 代 公 在 执行 
时 不 需要 冒险 检测 和 硬件 产生 阻塞 。 在 另 一些 设 计 中 ， 硬 件 检测 数据 冒险 并 在 两 个 发 射 包 
间 产 生 阻塞 ， 而 编译 器 只 负责 避免 一 个 指令 包 中 所 有 的 依赖 性 。 尽 管 如 此 ， 冒 险 仍 会 使 
包含 依赖 指令 的 整个 发 射 包 阻塞 。 不 管 软 件 必须 处 理 所 有 的 冒险 还 是 只 负责 减少 不 同 发 射 
包 之 间 的 冒险 ， 包 含 多 个 操作 的 长 指令 都 应 被 加 强 。 在 这 个 例子 中 ,我们 假定 使 用 第 二 种 
方法 。 

为 了 并 行 发 射 一 个 ALU 操作 和 数据 传输 操作 ， 首 先 需要 增加 一 些 硬件 : 除了 冒险 检测 
和 阻塞 逻辑 之 外 ， 还 需要 为 寄存 器 文件 增加 额外 的 端口 ( 见 图 4-67 ) 。 在 一 个 时 钟 周期 内 ， 
我 们 可 能 需要 为 一 个 ALU 操作 读 两 个 寄存 器 ， 并 为 store 操作 再 读 两 个 ， 同 时 ALU 操作 需 
要 一 个 写 端口 ， 而 load 操作 也 需要 一 个 写 端口 。 因 为 ALU 要 用 来 进行 ALU 操作 ， 所 以 还 
需要 一 个 额外 的 加 法 器 来 计算 数据 传输 的 有 效 地 址 。 如 果 没 有 这 些 额 外 的 硬件 资源 ， 双 发 射 
流水 线 将 受到 结构 冒险 的 损害 。 

显然 ,该 双 发 射 处 理 器 最 多 能 将 性 能 提高 两 倍 。 事 实 上 ， 为 了 | 使 用 延迟 : 在 load 指令 与 
达到 这 一 点 ,需要 将 双 发 射流 水 线 中 重 释 执行 的 指令 数 翻 倍 。 额 外 | 可 以 无 阻塞 使 用 其 结果 的 
的 重奏 使 数据 冒险 和 控制 冒险 带 来 的 相对 性 能 损失 也 增加 了 。 例 如 ， | 指令 间 相 隔 的 时 钟 周期 数 。 
在 我 们 简单 的 五 级 流水 线 中 ，load 指令 有 一 个 时 钟 周期 的 使 用 延迟 
(use latency)， 以 防止 一 条 指令 无 阻塞 地 使 用 其 结果 。 在 双 发 射 五 级 流水 线 中 ，load 指令 的 结 
果 不 能 在 下 个 时 钟 周期 使 用 。 这 意味 着 下 两 条 指令 不 能 无 阻塞 地 使 用 load 的 结果 。 此 外 ， 在 
简单 五 级 流水 线 中 没有 使 用 延迟 的 ALU 指令 现在 有 一 个 指令 的 使 用 延迟 ， 因 为 其 结果 不 能 
在 与 其 配对 的 load 指令 或 store 指令 中 使 用 。 为 了 有 效 地 挖掘 多 发 射 处 理 器 中 潜在 的 并 行 性 ， 
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需要 使 用 更 高 级 的 编译 器 或 硬件 调度 技术 ， 而 静态 多 发 射 要 求 编译 器 来 承担 这 一 任务 。 
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图 4-67 一 个 静态 双 发 射 的 数据 通路 。 双 发 射 所 需 的 天 外 硬件 突出 显示 ,主要 包括 : 来 自 指令 存储 器 
的 额外 32 位 输出 ， 寄 存 器 文件 增加 的 两 个 读 端口 和 一 个 写 端口 ， 增 加 的 一 个 ALU。 这 里 假 
设 下 面 的 ALU 处 理 数 据 传 输 时 的 地 址 计算 ， 而 上 面 的 ALU 处 理 所 有 其 他 操作 


| 例题 | 简单 的 多 发 射 代码 调度 。 
在 一 个 LEGv8 静态 双 发 射流 水 线 中 ， 下 面 这 个 循环 将 如 何 调度 ? 
Loop: LDUR X0 , Te #0] // X0=array element 





ADD X0,X0,X2 /1/ add scalar in X21 
STUR x0, [这 0 #0] // store result 

SUBI X20,X20,#8 // decrement pointer 
CMP X20,X22 1/ compare to loop limit 
BGT Loop 1/ branch if X20 > X22 


对 该 指令 序列 进行 重 排序 ， 以 尽 可 能 地 避免 流水 线 阻塞 。 假 设 分 支 是 可 预测 的 ， 即 控制 冒险 
由 硬件 处 理 。 

| 答案 | 前 三 条 指令 间 以 及 后 两 条 指令 间 都 存在 数据 依赖 。 图 4-68 给 出 了 这 些 指令 的 最 佳 调 
度 方式 。 注 意 ， 只 有 一 对 指令 同时 使 用 了 两 个 发 射 槽 。 每 次 循环 需要 花费 5 个 时 钟 周期 。 在 
5 个 时 钟 周期 内 执行 6 条 指令 ，CPI 最 坏 情况 下 为 0.83， 最 好 为 0.5， 而 IPC 最 坏 为 1.2， 最 
好 为 2.0。 注 意 ， 在 计算 CPI 或 IPC 时 ,我 们 没有 把 执行 的 nop 指令 算 为 有 效 指令 。 如 果 算 
进去 能 提高 CPI， 但 并 不 能 提高 真实 性 能 。 








Loop: | LDUR X0, [X20,#0] 





























和 
SUBI X20, X20, #8 2 
ADD X0, X0. X21 3 
CMP X20, X22 4 
B6T Loop | STUR X0, [X20,#8] 5 





图 4-68 在 双 发 射 LEGv8 流水 线 中 调度 的 代码 。 空 白 模 中 是 nop 指令 
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有 一 种 重要 的 从 循环 中 获得 更 高 性 能 的 编译 技术 称 为 循环 展开 “| 循环 展开 : 一 种 从 访问 数 
(loop unrolling)。 循环 展开 时 循环 体会 被 复制 多 份 。 循 环 展开 后 ， 通 | 组 的 循环 中 获取 更 多 性 能 


过 重 到 不 同 闪 代 中 的 指令 可 以 获得 更 高 的 ILP。 ee 
令 调度 到 一 起 。 
| 例题 | 多 发 射流 水 线 中 的 循环 展开 = 





对 上 面 的 例子 进行 循环 展开 和 调度 。 出 于 简化 目的 ， 假 设 循环 索引 是 4 的 倍数 。 
| 答案 | 为 了 无 延迟 地 调度 循环 ， 我 们 需要 把 循环 体 复制 四 份 。 在 展开 循环 和 消除 了 不 必要 
的 循环 开销 指令 后 ， 新 的 循环 包含 四 条 LDUR 指令 、 四 条 ADD 指令 、 四 条 STUR 指令 ， 以 及 
SUBI、CMP 和 CB2 指令 各 一 条 。 图 4-69 给 出 了 展开 并 调度 后 的 代码 。 





























Loop: SUBI X20, X20,#32 | Lour xo, [x20.#0] | 1 
LDUR X1, [X20 ,#24] 2 

, [X20,#15] 3 

ADD 1 M LDUR X3, [X20 ,#8] 4 

ADD X2, X2, X21 | STur xo, [x20.#32] | 5 

ADD MN Rs R21 | STuR x1, [X20,#24] | 6 

CMP X20, X22 | STuR x2. [x20.#16] | 7 

BGT Loop | STur x3, [x20,#8] | 8 














图 4-69 图 4-68 中 代码 进行 循环 展开 并 在 一 个 静态 双 发 射 LEGv8 流水 线 中 调度 后 的 代码 。 空 白 档 中 
是 nop 指令 。 因 为 循环 中 的 第 一 条 指令 将 x20 寄存 器 中 的 值 减 32， 而 装载 的 地 址 是 X20 寄 
存 器 中 的 原始 值 ， 所 以 将 该 地 址 依次 减 8、 减 16、 减 24 


在 循环 展开 的 过 程 中， 编译 器 引入 了 额外 的 寄存 器 (X1 、X2 、 | 寄存 器 重 命名 ;由 编译 器 
XxX3)。 这 个 过 程 被 称 为 寄存 器 重 命名 ( register renaming)， 目 的 是 消 | 或 硬件 对 寄存 器 进行 重合 
除 一 些 虚假 的 数据 依赖 ， 但 也 可 能 导致 潜在 的 冒险 或 妨碍 编译 器 灵 | 专注 除 扩 信 入 
活 调度 代码 。 考 虑 一 下 如 果 只 使 用 X0， 展 开 的 代码 会 是 什么 样 ? 那 
么 会 有 重复 的 LDUR X0，[X20,#0] 、ADD x0,X0,X21、 STUR X0， ed 
[x20, #8] 指令 序列 。 这 些 指令 序列 尽管 使 用 了 X0， 但 实际 是 独 | 谭 器 名 ) 的 重用 导致 的 依 
立 完成 的 ， 即 一 个 指令 序列 与 下 一 个 指令 序列 之 间 没 有 任何 数据 | 炳 ,而 不 是 两 条 指令 中 使 
流动 。 这 类 情况 称 为 反 依赖 (antidependence) 或 名 字 依 赖 (name 用 同一 个 值 而 导致 的 真正 
dependence)“， 即 仅 因为 重用 寄存 器 名 引起 的 依赖 ， 而 并 非 一 个 真正 Epi 
的 数据 依赖 (也 称 为 真 依赖 (tme dependence))。 

在 循环 展开 过 程 中 的 重 命名 寄存 器 ， 使 得 编译 器 能 够 移动 那些 不 存在 依赖 的 指令 ， 然 后 
更 好 地 调度 代码 。 重 命名 的 过 程 消除 了 名 字 依 赖 ， 同 时 保留 了 真正 的 依赖 。 

注意 ,循环 中 15 条 指令 中 的 14 条 是 按 对 执行 的 。4 次 循环 兴 代 将 花费 8 个 时 钟 周 期 ， 
CPI 为 15/8=1.88。 循 环 展开 与 调度 使 得 性 能 提高 了 两 倍 多 (4 次 选 代 从 20 个 周期 到 8 个 周 
期 )， 一 部 分 原因 是 减少 了 循环 控制 指令 ， 另 一 部 分 原因 是 双 发 射 执行 。 这 种 性 能 提高 的 代 
价 是 使 用 了 4 个 而 非 1 个 临时 寄存 器 ， 同 时 代码 量 也 增 大 了 约 两 倍 。 


4.10.3 动态 多 发 射 
动态 多 发 射 处 理 器 通常 也 称 为 超标 量 ( superscalar) 处 理 器 ,或 简称 超标 量 。 在 最 简单 
铝 也 称 为 反 相关 或 名 字 相 关 。 一 一 译 者 注 
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的 超标 量 处 理 器 中 ， 指 令 顺序 发 射 ， 每 个 周期 处 理 器 决定 是 发 射 0 | 超标 量 : 一 种 高 级 流水 线 
条 、1 条 还 是 多 条 指令 。 显 然 ， 在 这 种 处 理 器 上 要 达到 较 好 的 性 能 仍 | 技术 ,通过 在 执行 级 进行 
然 需要 编译 器 对 指令 进行 调度 ， 移 除 依赖 部 分 ， 并 改进 指令 的 发 射 | 汪 生 人。 全 十 人 
率 。 尽 管 使 用 了 编译 器 调度 ， 但 这 种 简单 的 超标 量 处 理 器 与 VLIW | 一条 
处 理 器 间 存 在 一 个 显著 的 不 同 ， 不管 代 码 是 否 经 过 调度 ， 都 是 由 硬 
件 来 保证 执行 的 正确 性 >?。 并 且 ， 编 译 得 到 的 代码 应 当 始 终 正确 执行 ， | 
而 与 指令 发 射 速率 和 处 理 器 的 流水 线 结构 无 关 。 在 某 些 VLIW 的 设 | 到 询 术 过 半 训 信 
计 中 情况 并 非 如 此 ， 当 代码 在 不 同 的 处 理 器 模型 间 移 动 时 ， 可 能 需 | 杰 伯 支持 
要 重新 编译 。 在 其 他 一 些 静 态 发 射 处 理 器 上 ， 代 码 可 以 在 不 同 的 实 
现 平台 上 正确 运行 ， 但 效果 可 能 很 差 以 至 于 需要 更 有 效 的 编译 。 

许多 超标 量 处 理 器 扩展 了 基本 的 动态 发 射 决策 ， 将 动态 流水 线 调度 ( dynamic pipeline 
scheduling) 包含 在 内 。 动 态 流水 线 调度 选择 某 个 时 钟 周期 内 将 执行 的 指令 ， 同 时 尝试 避免 慎 
险 和 阻塞。 下 面 从 一 个 简单 的 数据 由 险 的 例子 出 发 来 进行 说 明 。 考 虑 下 面 的 指令 序列 : 


LDUR Xx0, [X21,#20] 
ADD  X1， x0, x2 
SUB X23, X23, x3 
ANDI X5。 X23, 20 


即使 SUB 指令 准备 好 执行 ,但 也 必须 等 待 LDUR 和 ADD 指令 先 执 行 完毕 。 如 果 内 存 很 慢 ， 
那么 这 种 情况 将 耗费 很 多 时 钟 周期 (第 5 章 解 释 了 cache 失效 ， 即 有 时 访 存 操作 会 很 慢 的 原 
因 )。 动 态 镭 站 线 调 度 可 以 部 分 或 者 完全 避免 这 种 冒险 。 


4.10.4 动态 流水 线 调 度 


动态 流水 线 调度 选择 后 续 要 执行 的 指令 ， 并 可 能 对 指令 重新 排序 以 避免 阻塞 。 在 这 种 处 
理 器 中 ， 流 水 线 被 划分 为 三 个 主要 单元 : 取 指 与 发 射 单元 、 多 功能 单元 (在 2015 年 的 高 端 
处 理 器 中 有 十 多 种 或 更 多 ) 以 及 一 个 提交 单元 ( commit unit)。 图 4-70 描述 了 这 个 模型 。 第 
一 个 单元 进行 取 指 、 译 码 ， 然 后 将 每 条 指令 发 送 到 相应 的 功能 单元 执行 。 每 个 功能 单元 都 有 
自己 的 缓冲 区 ， 称 为 保留 站 ( reservation station)， 用 来 保存 操作 数 
和 操作 (下 一 节 我 们 将 讨论 最 新 处 理 器 中 使 用 的 一 种 可 以 替代 保留 ”| 提交 单元 : 动态 流水 线 或 
站 的 方法 )。 一 旦 缓冲 区 中 包含 了 所 有 的 操作 数 ， 并 且 功能 单元 就 绪 | 妃 序 流 水 线 中 的 一 个 单元 ， 
时 ， 就 可 以 计算 并 获得 结果 。 结 果 计算 出 来 后 ,将 被 发 送 到 等 待 该 | 如 放 和 冯 如 二 
结果 的 保留 站 和 提交 单元 。 提 交 单 元 缓存 这 个 结果 ， 并 在 安全 时 将 | 见 的 宁 存 器 吉 存 依 器 。 
这 个 结果 写 回 寄 存 器 文件 或 存储 器 (对 store 指令 )。 提 交 单元 中 的 
缓冲 区 通常 称 为 重 排序 缓冲 区 ( reorder buffer)， 也 可 以 用 来 提供 操 | 保留 站 : 功能 单元 中 用 
作 数 ， 其 工作 方式 类 似 于 静态 调度 流水 线 中 的 旁 路 逻辑 。 一 旦 结果 “| 相生 可 人 引 和 拉 作 的 级 
提交 给 寄存 器 文件 ， 就 可 以 从 寄存 器 文件 中 直接 被 取出 ， 就 像 在 普 
通 的 流水 线 中 一 样 。 重 排序 缓冲 区 ;动态 调 度 
将 操作 数 缓存 在 保留 站 中 以 及 将 结果 组 存在 重 排序 缓冲 区 中 ， | 处 理 器 中 用 于 保存 结果 的 
实际 上 提供 了 一 种 寄存 器重 命名 机 制 ， 类 似 于 前 面 循 环 展开 例子 中 | 缓冲 区 ， 在 安全 时 将 结果 
编译 器 所 使 用 的 方法 。 为 了 分 析 该 方式 如 何 运作 ， 考 虑 下 面 几 个 上 写 四 等 存 器 或 存储 器 。 
步 又: 


日 ”在 超标 量 处 理 器 中 。 一 一 译 者 注 
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1. 当 一 条 指令 发 射 时 ， 该 指令 先 被 复制 到 合适 功能 单元 的 保留 站 中 。 如 果 该 指令 的 操作 
数 在 寄存 器 文件 中 或 重 排序 缓冲 区 中 可 用 ， 那 么 这 些 操作 数 也 立即 被 复制 到 保留 站 中 。 指 令 
被 缓存 在 保留 站 中 ， 直 到 所 有 的 操作 数 和 所 需 的 功能 单元 可 用 。 如 果 指 令 被 发 射 ， 那 么 其 操 
作 数 的 寄存 器 副本 不 再 需要 ， 如 果 此 时 发 生 了 对 该 寄存 器 的 写 ， 其 值 可 以 被 覆盖 。 

2. 如 果 某 个 操作 数 不 在 寄存 器 文件 或 重 排序 缓冲 区 中 ,那么 必须 等 待 该 操作 数 被 某 个 功 
能 单元 计算 产生 。 产 生 该 结果 的 功能 单元 的 名 字 被 记录 追踪 。 当 该 单元 最 终 计 算出 结果 时 ， 
该 结果 将 直接 从 功能 单元 复制 到 保留 站 中 ， 跳 过 寄存 器 文件 。 


取 指 与 译 码 单元 








顺序 发 射 





乱 序 执行 


顺序 提交 


图 4-70 动态 调度 流水 线 中 的 三 个 主要 单元 。 状 态 更 新 的 最 后 一 步 也 被 称 为 退出 
(retirement) 或 提交 (graduation ) 


上 面 两 步 有 效 地 利用 重 排序 缓冲 区 和 保留 站 以 实现 寄存 器 重 命名 。 

从 概念 上 讲 ， 流 水 线 的 动态 调度 可 以 被 视 为 对 程序 数据 流 结构 的 一 种 分 析 。 处 理 器 在 保 
留 程序 原 有 数据 流 顺 序 的 前 提 下 以 某 种 顺序 执行 指令 。 这 种 执行 方式 被 称 为 乱 序 执行 (out- 
of-order execution)， 因 为 指令 的 执行 顺序 可 以 与 取 指 的 顺序 不 同 。 

为 了 使 程序 表现 得 像 是 在 一 个 简单 的 顺序 流水 线 上 执行 ， 取 指 “| 乱 序 执行 ， 流水线 执 行 的 
和 译 码 单元 必须 顺序 发 射 指令 ， 以 便 能 够 记录 程序 中 的 依赖 关系 。 | 一 种 情况 ， 即 执行 中 的 某 
而 提交 单元 也 必须 按照 取 指 顺序 将 结果 写 回 寄存 器 文件 和 存储 器 。 | 条 指令 被 阻塞 时 不 会 导致 
这 种 保守 的 模式 称 为 顺序 提交 ( in-order commit)。 因 此 ， 当 异常 发 | 后面 的 指 今 等待 
生 时 ， 处 理 器 可 以 指向 最 后 执行 的 那 条 指令 ， 并 且 只 有 被 导致 异常 | 顺序 提交 ， 流水 线 执行 的 
的 指令 之 前 的 指令 写 的 那些 寄存 器 才 会 被 修改 。 虽 然 流水 线 的 前 端 ”| 结果 以 取 指 顺序 写 回程 序 
( 取 指 和 发 射 ) 和 后 端 (提交 ) 按照 顺序 进行 ,但 各 功能 单元 可 以 在 | 员 可 见 等 存 器 的 一 种 提交 
所 需 数据 可 用 时 随时 开始 执行 过 程 。 目 前 ， 所 有 的 动态 调度 流水 线 【了 
都 采用 顺序 提交 。 

动态 调度 经 常 与 基于 硬件 的 推测 机 制 相 结合 ， 特 别 是 对 分 支 的 推测 。 通 过 预测 分 支 的 
方向 ， 动 态 调度 处 理 器 可 以 在 推测 方向 上 继续 取 指 和 执行 。 由 于 指令 是 顺序 提交 的 ， 因 此 
在 预测 路 径 上 任何 指令 提交 之 前 就 可 以 知道 分 支 预测 是 否 正确 。 一 个 推测 执行 的 动态 调度 
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流水 线 同样 可 以 支持 对 load 指令 目标 地 址 的 推测 ， 允 许 对 load 和 store 的 重 排序 ， 并 且 使 
用 提交 单元 避免 错误 的 推测 。 下 一 节 中 将 讨论 Intel Core i7 处 理 器 中 的 动态 调度 以 及 推测 
机 制 。 

| 恒 解 程序 性 佛 | 既然 编译 器 可 以 根据 数据 依赖 关系 调度 代码 ， 那 么 为 什么 超标 量 处 理 器 
还 要 使 用 动态 调度 ? 主要 原因 有 三 点 。 第 一 ， 并 不 是 所 有 的 阻塞 都 可 以 预测 。 尤 其 是 月 树 
如 再 铺 海 的 cache 失效 ( 见 第 5 章 ) 导致 的 不 可 预测 的 阻塞 。 动 态 调度 允许 处 理 器 在 等 待 阻 
塞 结束 的 同时 ， 通 过 继续 执行 其 他 指令 来 隐藏 阻塞 。 

第 二 ， 如 果 处 理 器 采用 动态 分 支 屡 再 来 推测 分 支 的 结果 ， 那 么 精确 的 指令 顺序 无 法 在 
编译 时 知道 ， 因 为 这 些 信息 依赖 于 预测 和 分 支 的 实际 执行 情况 。 采 用 动态 推测 而 不 是 动态 调 
度 来 开发 更 多 的 指令 级 并 行 (ILP)， 会 极 大 地 限制 推测 带 来 的 收益 。 

第 三 ， 由 于 流水 线 延迟 和 发 射 宽度 因 处 理 器 实现 的 不 同 而 不 同 ， 因 此 编译 代码 序列 最 
佳 的 方法 也 会 不 同 。 例 如 ， 如 何 调度 一 个 带 依赖 关系 的 指令 序列 与 发 射 宽度 和 延迟 存在 着 密 
切 关系 。 流 水 线 的 结构 会 影响 循环 展开 (以 避免 可 能 的 阻塞 ) 的 次 数 ， 同 样 还 会 影响 基于 纺 
译 器 的 寄存 器 重 命名 的 过 程 。 动 态 调度 允许 硬件 将 大 部 分 的 细节 隐藏 起 来 。 因 此 ， 用 户 和 软 
件 发 行商 不 需要 担心 一 个 程序 在 同一 指令 集 的 不 同 (处 理 器 ) 实现 上 的 多 个 版 本 问题 。 同 样 ， 
以 前 的 代码 不 用 重新 编译 就 能 从 更 新 的 处 理 器 实现 中 受益 。 

[三 贿 | 有 可 和 多 发 射 都 提高 了 指令 的 峰值 吞吐 率 并 试图 开发 指令 级 旺 纤 。 然 而 ， 由 
于 处 理 器 有 时 必须 等 待 依 赖 关系 明确 后 才能 继续 工作 ， 因 此 程序 中 的 数据 依赖 和 控制 依赖 往 
往 限制 了 可 达 性 能 的 上 限 。 以 软件 为 中 心 开发 指令 级 并 行 的 方法 依赖 于 编译 器 来 找到 依赖 
并 减少 这 些 依赖 可 能 造成 的 影响 。 而 以 硬件 为 中 心 的 方法 则 通过 对 流水 线 的 扩展 以 及 多 发 射 
机 制 。 推 测 执行 无 论 由 编译 器 还 是 硬件 完成 ， 都 可 以 通过 会 油 增 加 指令 级 并 行 的 数量 。 但 使 
用 时 必须 小 心 ， 因 为 错误 的 推测 可 能 会 降低 性 能 。 

区 硬 二 KR 厂 楼 吏 现代 高 性 能 微 处 理 器 能 在 每 个 时 钟 周期 内 发 射 多 条 指令 。 不 幸 的 是 ， 
保持 这 种 高 发 射 率 非常 困难 。 例 如 ， 尽 管 一 个 处 理 器 可 以 每 个 时 钟 周期 发 射 4-6 条 指令 ， 但 
只 有 很 少 的 应 用 程序 能 保持 每 周期 发 射 两 条 以 上 指令 。 这 里 面 主要 有 两 个 原因 。 

首先 ， 在 流水 线 中 ， 主 要 的 性 能 瓶颈 产生 于 那些 不 能 立即 解决 的 依赖 性 ， 这 就 限制 了 
指令 间 的 并 行 度 以 及 持续 的 发 射 速率 。 对 于 真正 的 数据 依赖 而 言 没有 大 多 的 处 理 方法 ， 通 党 
编译 器 或 硬件 并 不 能 精确 知道 依赖 是 否 存在 ， 因 而 只 能 保守 地 假设 依赖 存在 。 例 如 ， 使 用 指 
针 的 代码 (特别 是 以 导致 别名 (aliasing) 的 方式 使 用 时 )， 可 能 导致 更 多 潜在 的 隐 式 依赖 。 反 
之 ， 更 为 规律 的 数组 访问 允许 编译 器 推测 出 没有 依赖 存在 。 同 样 ， 在 编译 或 运行 期 间 都 不 能 
被 精确 预测 的 分 支 将 会 限制 ILP 的 开发 。 通 常 ， 虽 然 可 以 开发 额外 的 ILP， 但 编译 器 或 硬件 
从 广 为 分 散 的 代码 中 寻找 ILP〔( 有 时 在 上 千 条 指令 的 执行 中 ) 的 能 力 是 有 限 的 。 

其 次 ， 有 ES 天 ( 见 第 5 章 ) 中 的 失效 同样 限制 了 流水 线 满载 运行 的 能 力 。 
尽管 存储 器 系统 的 一 些 阻塞 可 以 被 隐藏 起 来 ,但 有 限 的 ILP 同样 会 限制 阻塞 被 隐藏 的 
程度 。 


4.10.5 能 耗 效率 与 高 级 流水 线 


通过 动态 多 发 射 和 推测 执行 来 开发 指令 级 并 行 的 副作用 是 能 耗 效率 问题 。 每 项 创新 都 将 
更 多 的 晶体 管 转化 为 性 能 ,但 是 这 种 转化 往往 极其 低 效 。 因为 功 耗 墙 问题 的 存在 ， 我 们 看 到 
目前 新 的 处 理 器 设计 都 是 每 片上 有 多 个 处 理 器 , 并且 这 些 处 理 器 与 前 期 的 处 理 器 不 同 ， 没 有 
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深度 流水 线 ， 也 没有 激进 的 推测 执行 。 

虽然 简单 的 处 理 器 没有 复杂 处 理 器 那么 快 ， 但 是 在 每 焦耳 能 耗 下 能 获得 更 好 的 性 能 。 
所 以 当 设计 的 约束 更 多 来 自 能 耗 而 非 晶体 管 数 量 时 ， 多 核 处 理 器 能 在 单 芯片 上 获得 更 高 的 
性 能 。 
图 4-71 给 出 了 若干 过 去 和 近期 Intel 微 处 理 器 的 流水 线 级 数 、 发 射 宽 度 、 推 测 级 
别 、 时 钟 频率 、 每 芯片 的 核 数 以 及 功 耗 。 注 意 从 单 核发 展 到 多 核 时 流水 线 级 数 和 功 耗 的 
减少 。 

















微 处 理 器 
























Intel 486 |1989 | 25MHz 5 | No | 5W 

Intel Pentium |1993 | 66 MHz 5 | No | 10W 

Intel Pentium Pro |1997 | 200MHz | | ves | 29wW 
| 


Intel Pentium 4 Willamette | 2001 
Intel Pentium 4 Prescott 
Intel Core 2006 | 2930 MHz 14 
Intel Core i5 Nehalem |2010 | 3300 MHz 14 
intel Core i5 Wy Bridge ”|2012 | 3400 MHz 14 


图 4-71 Intel 微 处 理 器 的 流水 线 复杂 度 、 核 数 和 功 耗 的 发 展 。 其 中 ，Pentium 4 
的 流水 线 级 数 不 包 括 提交 级 。 如 果 加 上 提交 级 ，Pentium 4 的 流水 线 级 数 
会 更 深 
讲 角 提交 单元 控制 寄存 器 文件 和 存储 器 的 更 新 。 一 些 动态 调度 处 理 器 在 执行 过 程 
中 即时 更 新 寄存 器 文件 ， 使 用 额外 的 寄存 器 来 实现 重 命名 功能 ， 并 保存 寄存 器 旧 的 复 本 
直到 更 新 该 寄存 器 的 指令 不 再 是 推测 得 出 的 。 其 他 处 理 器 通常 把 结果 缓存 在 重 排序 缓冲 
中 ,而 对 寄存 器 文件 的 更 新 在 稍 后 的 提交 级 产生 。 在 指令 提交 之 前 ， 写 存储 器 的 数据 必须 
先 缓存 在 存储 缓冲 区 ( store buffer， 见 第 5 章 ) 或 重 排序 缓冲 区 中 。 当 缓冲 区 具有 有 效 地 
址 和 数据 ， 并 且 store 操作 不 再 依赖 预测 的 分 支 时 ， 提 交 单 元 允许 从 缓冲 区 中 将 值 写 入 存 
储 器 。 
俩 解 访 存 操作 可 以 从 非 阻塞 cache ( nonblocking cache) 中 受益 ， 即 在 cache 失效 ( 参 
见 第 5 章 ) 时 能 够 继续 提供 cache 访问 服务 。 乱 序 执 行 的 处 理 器 需要 cache 允许 指令 在 cache 
失效 时 继续 执行 。 
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4.11 ”实例 : ARM Cortex-A53 和 Intel Core i7 流水 线 
图 4-72 给 出 了 本 节 将 要 考察 的 两 个 微 处 理 器 ， 它 们 是 后 PC 时 代 的 两 个 标志 性 产品 。 
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市 场 个 人 移动 设备 
热 设 计 功 耗 100miliWatts ( 1core @ 1GHz } 130Watts 
时 钟 频率 1.5GHz 全 2.66GHz 
核 /芯片 4 (可 配置 ) 4 
浮 点 有 有 
多 发 身 动态 动态 
峰值 指令 数 /周期 2 4 
流水 线 级 数 8 14 
流水 线 调度 静态 顺序 动态 乱 序 推测 执行 
分 支 预 测 混合 2 级 
1 级 cache/ 核 16-64KiB 指 令 ，16-64KiB 数 据 32KiB 指 令 ，32KiB 数 据 
2 级 cache/ 核 128 ~ 2048KiB ( 共享 ) 256KiB ( 每 核 ) 
3 级 cache ( 共享 ) 依赖 于 平台 2~ 8MiB 








图 4-72 ARM Cortex-A53 和 Intel Core i7 920 处 理 器 规格 


4.11.1 ARM Cortex-A53 


ARM Cortex-A53 处 理 器 主 频 为 1.5GHz， 具 有 八 级 流水 线 ， 执行 ARMv8 指令 集 。 采 用 
动态 多 发 射 技术 ， 每 个 时 钟 周 期 可 以 发 射 两 条 指令 。 采 用 静态 顺序 流水 线 ， 指 令 发 射 、 执 行 
和 提交 均 顺序 执行 。 流 水 线 包含 取 指 令 、 指 令 译 码 和 执行 三 级 。 图 4-73 给 出 了 流水 线 的 整 
体 情况 。 
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D1 D2 D3 F1 F2 F3 F4 F5 
图 4-73 Cortex-A53 流水 线 。 流 水 线 前 三 级 指令 取 到 一 个 具有 13 个 入 口 的 指令 队列 中 。 地 址 产生 单元 
( Address Generation Unit，AGU) 使 用 一 个 混合 预测 器 ( hybrid predictor)、 一 个 间接 预测 器 
( indirect predictor) 以 及 一 个 返回 栈 ( return stack) 进行 分 支 预测 以 保持 预 取 队列 处 于 满 状 态 。 
指令 译 码 和 指令 执行 各 有 三 个 流水 级 。 另 外 两 个 流水 级 用 于 浮 点 数 和 SIMD 操作 
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前 三 个 流水 级 每 次 取出 两 条 指令 ， 使 得 带 有 13 个 入 口 的 指令 队列 保持 装 满 状态 。 使 用 
了 一 个 6kb 的 混合 分 支 目 标 预测 器 、 一 个 256 入 口 的 间接 分 支 预测 器 ， 以 及 一 个 用 于 预测 
未 来 功能 单元 返回 内 容 的 8 人 口 的 返回 地 址 栈 。 间 接 分 支 的 预测 需要 一 个 额外 的 流水 级 。 当 
分 支 预测 错误 或 指令 cache 不 命中 时 ， 如 果 指 令 队 列 不 能 将 译 码 级 和 执行 级 从 取 指 级 分 离 出 
来 ,那么 将 导致 额外 的 延迟 。 分 支 预测 错误 时 ， 流 水 线 被 清空 ， 产 生 8 个 时 钟 周期 的 误 预测 
开销 。 

译 码 级 确定 一 对 指令 间 是 否 存在 可 导致 顺序 执行 的 依赖 ， 并 且 确 定 在 执行 级 将 指令 送 往 
哪 条 流水 线 。 

指令 执行 部 分 主要 有 三 个 流水 级 ， 并 提供 了 一 条 用 于 load 指令 的 流水 线 、 一 条 用 于 
store 指令 的 流水 线 、 两 条 整数 算术 操作 流水 线 ， 以 及 独立 的 专门 用 于 整数 乘法 和 除法 的 流水 
线 。 指 令 对 中 的 任何 一 条 指令 都 可 以 发 射 到 load 或 store 流水 线 。 这 些 执行 级 在 流水 线 间 具 
有 全 旁 路 。 

浮 点 操作 和 SIMD 操作 在 指令 执行 部 分 又 增加 了 两 个 流水 级 ， 并 将 一 条 流水 线 用 于 乘 、 
除 、 平 方 根 运算 ， 另 一 条 用 于 其 他 算术 运算 。 

4-74 给 出 了 Cortex-A53 运行 SPEC 2006 基准 程序 的 CPI。 虽 然 理想 的 CPI 是 0.5， 
但 是 图 中 最 好 情形 达到 1.0， 中 间 值 是 1.3， 最 差 是 8.6。 对 于 中 间 情 况 ，60% 的 流水 线 阻塞 
由 冒险 引起 ，40% 由 存储 器 层次 引起 。 流 水 线 阻塞 由 分 支 误 预测 、 结 构 冒 险 以 及 指令 对 间 的 
数据 依赖 造成 。 由 于 Cortex-A53 采用 静态 流水 线 ， 因 此 由 编译 器 来 尽 可 能 避免 结构 冒险 和 
数据 依赖 。 
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丹 也 Cortex-A53 是 一 个 支持 ARMv8 省 令 集 的 可 配置 内 核 ， 以 IP (Intellectual Property， 
知识 产权 ) 核 方式 交付 使 用 。IP 核 是 嵌入 式 、 个 人 移动 设备 和 相关 市 场 中 技术 交付 的 主要 形 
式 ， 数 十 亿 的 ARM 和 MIPS 处 理 器 都 是 由 这 种 IP 核 产生 的 。 
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图 4-74 ”SPEC2006 基准 测试 程序 在 ARM Cortex-A53 上 的 CPI 
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注意 ,IP 核 与 Intel i7 多 核 计算 机 中 的 核 不 同 。IP 核 (本身 可 能 就 是 多 核 ) 的 设计 目标 
是 与 其 他 逻辑 集成 在 一 起 (因此 是 一 个 芯片 的 “核心 ”) 以 形成 一 个 面向 某 种 应 用 优化 的 处 
理 器 ， 这 里 其 他 逻辑 包括 专用 处 理 器 (例如 视频 编 解码 器 )、LO 接口 和 存储 器 接口 。 虽 然 处 
理 器 核 在 逻辑 上 几乎 相同 ， 但 最 终 的 芯片 有 许多 不 同 。 一 个 参数 就 是 L2 cache 的 容量 ， 差 别 
可 以 相差 16 倍 。 


4.11.2 Intel Core i7 920 


x86 微 处 理 器 采用 了 复杂 的 流水 线 技术 ,包括 动态 多 发 射 、 带 乱 序 执行 和 推测 执行 的 动 
态 流水 线 调 度 技术 。 然 而 ， 正 如 第 2 章 中 提 到 的 ， 这 些 处 理 器 依然 面临 着 实现 复杂 x86 指 
令 集 的 挑战 。Intel 取出 x86 指令 并 翻译 为 类 似 ARMv8 的 中 间 指 令 ， 称 之 为 微 操 作 ( micro- 
operation)。 微 操作 由 复杂 的 基于 推测 执行 的 动态 调度 流水 线 执行 ， 该 流水 线 的 执行 率 可 达 每 
个 时 钟 周期 6 个 微 操 作 。 本 节 集中 讨论 微 操 作 流水 线 。 

当 我 们 考虑 这 类 复杂 处 理 器 的 设计 时 ， 功 能 单元 、cache 和 寄存 器 文件 、 指 令 发 射 以 及 
整个 流水 线 控制 的 设计 混合 在 一 起 ， 难 以 把 数据 通路 从 流水 线 中 分 离 出 来 。 因 此 ， 很 多 工程 
师 和 研究 人 员 使 用 术语 微 体 系 结构 ( microarchitecture) 来 描述 处 理 和 
器 内 部 体系 结构 的 细节 。 杖 、 电 括 生 要 六 洲 蓄 音 

Intel Core i7 使 用 重 排序 缓冲 区 和 寄存 器 重 命名 技术 来 解决 反 依 “ | 元 、 内 部 互 连 以 及 控制 。 
赖 和 推测 错误 。 寄 存 器 重 命名 技术 显 式 地 将 处 理 器 中 的 体系 结构 寄 
存 器 (architectural register)( 在 64 位 版 本 的 x86 体系 结构 中 是 16 个 ) | 体系 结构 寄存 器 : 处 理 器 中 
重 命名 为 一 个 更 大 的 物理 寄存 器 集合 。Core i7 使 用 寄存 器 重 命名 技 | 中 卫生 十 训 人 人 
术 来 消除 反 依 赖 。 寄 存 器 重 命名 需要 处 理 器 维护 体系 结构 寄存 器 和 | 个 浮 点 才 存 器 。 
物理 寄存 器 之 间 的 映射 关系 ， 并 指出 哪个 物理 寄存 器 是 某 个 体系 结 
构 寄 存 器 的 最 新 备份 。 通 过 跟踪 已 经 发 生 的 重 命名 ， 寄 存 器 重 命名 提供 了 另 一 种 推测 错误 时 
的 恢复 方法 : 简单 地 撤销 所 有 第 一 条 推测 错误 指令 后 产生 的 所 有 映射 。 撤 销 将 导致 处 理 器 的 
状态 返回 到 最 后 一 条 正确 执行 的 指令 处 ， 并 保持 结构 寄存 器 与 物理 寄存 器 之 间 的 正确 映射 。 

图 4-75 给 出 了 Core i7 的 整体 组 成 以 及 流水 线 结构 。 下 面 是 一 条 x86 指令 执行 需要 经 历 
的 8 个 步骤 。 

1. 取 指 令 一 一 处 理 器 使 用 一 个 多 级 分 支 目 标 缓冲 区 在 速度 和 预测 准确 率 之 间 进 行 平衡 。 
还 有 一 个 返回 地 址 栈 用 于 加 速 函数 返回 。 误 预测 将 导致 15 个 周期 的 开销 。 取 指 单元 可 以 使 
用 预测 地 址 从 指令 cache 中 取出 16 个 字 节 。 

2. 这 16 字 节 被 放 人 预 译 码 指令 缓冲 区 一 一 预 译 码 级 将 这 16 字 节 转换 为 独立 的 x86 指 
令 。 由 于 x86 指令 长 度 可 以 是 1 ~ 15 字 节 不 等 ， 因 此 预 译 码 操作 并 不 简单 ， 需 要 在 确定 指 
令 长 度 之 前 扫描 多 个 字 节 。 单 独 的 x86 指令 被 放 入 一 个 18 个 人 口 的 指令 队列 中 。 

3. 微 操 作 译 码 一 一 每 条 x86 指令 被 翻译 为 微 操 作 ( micro-op)。 有 三 个 译 码 器 将 x86 指令 
直接 翻译 为 一 个 微 操作 。 而 对 于 具有 复杂 语义 的 x86 指令 ， 则 使 用 微 代码 引擎 产生 一 个 微 操 
作 序 列 ; 该 引擎 能 够 在 每 个 周期 生成 4 个 微 操作 直到 必需 的 微 操 作 序列 生成 为 止 。 这 些微 操 
作 按 照 x86 指令 的 顺序 放 人 具有 28 个 人 口 的 微 操 作 缓冲 区 中 。 

4. 微 操作 缓冲 区 执行 循环 流 检测 (loop stream detection) 一 一 如 果 有 一 个 小 的 指令 序列 
( 少 于 28 条 指令 或 长 度 小 于 256 字 节 ) 包含 一 个 循环 ， 循 环流 检测 器 将 识别 该 循环 ， 并 直接 
从 缓冲 区 中 发 射 微 操作 ， 防 止 取 指 和 译 码 级 被 激活 。 
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5. 执行 基本 指令 发 射 一 一 在 将 微 操 作 发 射 到 保留 站 之 前 ， 在 寄存 器 表 中 查找 寄存 器 位 
置 、 对 寄存 器 进行 重 命名 、 分 配 重 排序 缓冲 区 入口 、 从 寄存 器 或 重 排序 缓冲 区 中 取出 结果 。 

6. 记 使 用 一 个 被 6 个 功能 单元 共享 的 36 入口 的 集中 式 保留 站 。 在 每 个 周期 内 最 多 可 以 
向 功能 单元 分 派 6 个 微 操 作 。 

7. 各 个 功能 单元 执行 微 操作 ， 并 将 执行 结果 送 回 等 待 的 保留 站 以 及 寄存 器 提交 部 件 中 ， 
当 确 定 指令 不 再 是 推测 执行 时 ， 更 新 寄存 器 状态 。 重 排序 缓冲 区 中 与 指令 对 应 的 入 口 标 记 为 
完成 。 

8. 当 重 排序 缓冲 头 部 的 一 条 或 多 条 指令 被 标记 为 完成 时 ， 在 寄存 器 提交 单元 中 等 待 的 写 
操作 就 可 以 执行 ， 这 些 指令 可 以 从 重 排序 缓冲 区 中 移 走 。 
































图 4-75 包含 存储 部 件 的 Core i7 流水 线 。 流 水 线 总 深度 为 14 级 ， 误 预测 耗费 17 
个 时 钟 周期 。 该 设计 可 以 缓存 48 个 load 和 32 个 store。6 个 相关 的 部 件 
在 每 个 时 钟 周 期 可 以 开始 执行 一 个 准备 好 的 微 操 作 


辆 策 第 二 步 和 第 四 步 中 的 硬件 能 够 将 操作 进行 合并 ， 从 而 减少 需要 执行 的 微 操 作 的 数 
量 。 第 二 步 中 的 宏 操作 (macro-op) 合并 将 x86 指令 进行 组 合 ， 例 如 将 比较 后 面 紧 跟 一 个 分 
支 合并 成 一 个 操作 。 第 四 步 中 的 微 操 作 合并 ( microfusion) 将 load/ALU 操作 和 ALU/store 之 
类 的 微 操 作对 进行 合并 ， 并 发 射 到 一 个 保留 站 中 (在 这 里 它们 依旧 可 以 独立 发 射 )， 从 而 提 
高 了 缓冲 区 的 利用 率 。 在 对 Intel 核 体系 结构 (结合 了 微 操 作 合 并 和 宏 操 作 合 并 ) 的 研究 中 ， 
Bird 等 [ 2007 ] 发 现 微 操作 合并 对 性 能 影响 很 小 ， 而 宏 操 作 合 并 似乎 对 整数 性 能 有 适度 的 正 
面 影响 ， 而 对 浮 点 性 能 影响 很 小 。 
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4.11.3 Intel Core i7 920 的 性 能 


图 4-76 给 出 了 每 个 SPEC 2006 基准 测试 程序 在 Intel Core i7 上 执行 的 CPI。 虽 然 理 想 的 
CPl 是 0.25, 但 最 佳 情况 是 0.44， 中 间 情 况 是 0.79， 最 差 2.67。 
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图 4-76 ”lntel Core i7 920 运行 SPEC 2006 整数 基准 测试 程序 的 CPI 


虽然 在 动态 乱 序 执行 的 流水 线 中 ， 很 难 区 分 流水 线 阻 塞 和 访 存 阻塞 ， 但 依然 能 够 展示 分 支 
预测 和 推测 执行 的 有 效 性 。 图 4-77 给 出 了 分 支 预测 错误 的 比例 ， 以 及 与 所 有 微 操 作 分 派 相关 的 
未 提交 ( 即 结果 被 取消 ) 工作 的 比例 (以 分 派 进入 流水 线 的 微 操 作 数量 衡量 ) 。 分 支 误 预测 的 最 
小 值 、 中 间 值 和 最 大 值 分 别 是 0% 、2% 和 10%。 对 于 浪费 的 工作 ， 分 别 是 1%、18% 和 39%。 


分 支 误 预测 % 和 浪费 的 工作 % 


30% +-- 








0% | + : 3 
六 有 

Ee Te 
¥ 

图 4-77 在 Intel Core i7 920 上 运行 SPEC 2006 整数 基准 测试 程序 时 ， 分 支 误 预测 的 比 

例 以 及 无 效 的 推测 所 浪费 的 工作 的 比例 
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浪费 的 工作 在 有 些 情 况 下 与 分 支 误 预测 率 接近 ， 例 如 gobmk 和 astar 测试 程序 。 在 一 些 
情况 下 ， 例 如 mcf， 浪 费 的 工作 的 比例 相对 要 大 于 误 预 测 比 例 。 这 种 差别 可 能 来 源 于 存储 器 
行为 。 当 数据 cache 的 失效 率 很 高 时 ， 只 要 有 足够 的 保留 站 用 以 存放 阻塞 的 访 存 ， 那 么 mcf 
将 在 错误 的 推测 中 分 派 很 多 指令 。 当 很 多 推测 执行 指令 中 的 一 个 分 支 最 终 确定 为 误 预测 时 
与 这 些 指令 相关 的 微 操作 都 将 被 清除 。 

次 各 党 妈 角 3 Intel Core i7 组 合 使 用 一 个 14 级 的 流水 线 和 激进 的 多 发 射 来 获取 高 性 
能 。 在 保持 背 对 背 ( back-to-back) 操作 低 延 迟 的 同时 ， 减 少 了 数据 依赖 的 影响 。 那 么 对 运行 
在 这 个 处 理 器 上 的 程序 而 言 ， 最 严重 的 潜在 性 能 瓶颈 在 哪里 呢 ? 下 面 列 出 了 一 些 可 能 的 性 能 
问题 ， 最 后 三 个 问题 在 任何 高 性 能 流水 线 处 理 器 中 都 会 以 某 种 形式 出 现 。 

。 使 用 了 不 能 映射 成 若干 简单 微 操作 的 x86 指令 。 

。 难 于 预测 的 分 支 ， 导 致 预测 错误 时 的 阻塞 和 推测 失败 时 的 重启 。 

。 长 依赖 一 一 典型 的 引发 原因 是 执行 时 间 很 长 的 指令 或 二 里 洋 泥 狼 物 一 一 导致 旧 塞 。 

。 存储 器 访问 中 产生 的 性 能 延迟 ( 见 第 5 章 ) 导致 处 理 器 阻塞 。 


4.12 ”加速 : 指令 级 并 行 和 矩阵 乘法 


可 到 第 3 章 中 DGEMM 的 例子 ， 我 们 可 以 看 到 通过 循环 展开 使 得 多 发 射 乱 序 执行 处 理 
器 有 更 多 的 指令 用 于 调度 ， 从 而 对 指令 级 并 行 产生 影响 。 图 4-78 给 出 了 图 3-23 中 程序 循环 
展开 后 的 版 本 ,包含 了 产生 AVX 指令 的 C 内 联 函 数 。 























1 Winclude <x86intrin.h> 

2 Wdefine UNROLL (4) 

4 void dgemm (int n, double* A, double* B, double* C) 
A 

6 for ( int 1 = 0; 1 < n; i+=UNROLL*4 ) 

7 for CC ME j= 0 Cm tt ) £ 

8 —m256d c[4]; 

9 for ( int x = 0; x < UNROLL; x++ ) 

10 Cc[x] = _mm256_load_pd(C+i+x*4+j*n); 

11 

12 for( int k= 0; k<n; k++ ) 

13 { 

14 — m256d b = _mm256_broadcast_sd(B+k+j*n); 
15 for (int x = 0; x < UNROLL; x++) 

16 Cc[x] = _mm256_acd_pd(c[x], 

17 mm256_mul_pd(_mm256_load_pd(Atn*k+x*4+i), b)); 
18 } 

19 

20 for ( int x = 0; x < UNROLL; x++ ) 

21 _MM256_store_pd(C+i+x*4+j*n, ctx]); 

22 上 

23 上 











图 4-78 优化 的 DGEMM C 版 本 ， 使 用 生成 x86 AVX 子 字 并 行 指令 (图 3-23 ) 的 C 内 
联 函数 ， 并 展开 循环 以 创造 更 多 开发 指令 级 并 行 的 机 会 。 图 4-79 给 出 了 编译 器 
产生 的 内 循环 的 汇编 语言 ， 将 三 个 for 循环 体 进行 展开 以 显示 指令 级 并 行 


与 图 4-69 中 循环 展开 的 例子 一 样 ， 我 们 将 循环 展开 4 次 。 与 图 3-23 中 手工 将 C 循环 中 
每 个 循环 体 复制 4 份 不 同 ， 我 们 可 以 依赖 于 gcc 编译 器 的 03 优化 选项 来 展开 循环 。( 在 C 代 
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码 中 使 用 常数 UNROLL 来 控制 想 展 开 的 次 数 。) 我 们 将 一 个 带 有 4 个 迭代 的 简单 for 循环 包 
围 在 每 个 内 联 函 数 周 围 (第 9、15 和 20 行 ), 将 图 3-23 中 的 标量 C0 用 一 个 4 个 元 素 的 数组 
c[] (第 8、10、16 和 21 行 ) 替换 。 

4-79 给 出 了 展开 后 的 汇编 语言 代码 。 正 如 所 期 望 的 一 样 ， 图 3-24 中 的 每 条 AVX 指令 
(只 有 一 个 例外 ) 在 图 4-79 中 有 4 个 版 本 。 因 为 在 循环 中 ,我 们 可 以 反复 使 用 寄存 器 $ymm0 
中 B 元 素 的 4 个 副本 ， 因 此 只 需要 一 个 vbroadcastsd 指令 副本 。 所 以 ， 图 3-24 中 的 5 条 
AVX 指令 变 成 了 图 4-79 中 的 17 条。 并 且 ， 尽管 常数 和 地 址 根据 循环 展开 的 次 数 而 变化 ,但 
7 条 整数 指令 在 两 种 情况 下 没有 变化 。 因 此 ， 即 使 循环 展开 了 4 次 ， 循 环 体 中 的 指令 数量 只 
翻 了 一 倍 : 由 12 条 变 为 24 条 。 





1 vmovapd (%rll) ,%ymm4 / Load 4 elements of C into %ymm4 
2 mov %rbx ,%rax 1 register %rax = %rbx 

3 xor Wecx, %ecx 1 register %ecx = 0 

4 vmovapd 0x20(%rll).%ymm3 1 Load 4 elements of C into %ymm3 
5 vmovapd Ox40(%r1l),%ymm2 1 Load 4 elements of C into %ymm2 
6 vmovapd Ox60(%r11),%ymml Il/ Load 4 elements of C into %ymml 
7 vbroadcastsd (%rcx,%r9,1),%ymmO /Make 4 copies of B element 
8 add $0x8,%rcx 1 register %rcx = %rcx+ 8 

9 vmulpd (%rax),%ymmo,%ymm5 1 Parallel mu] %ymml,4 A 

10 vaddpd %ymm5 ,%ymm4 ,%ymm4 1 Parallel add %ymm5，%ymm4 

11 vmulpd 0x20(%rax) ,%ymm0,%ymm5 // Parallel mu]l %ymml ,4 A 

12 vaddpd %ymm5 ,%ymm3 ,%ymm3 1 Parallel add %ymm5, %ymm3 


13 vmulpd Ox40(%rax),%ymmO0,%ymm5 // Parallel mul %ymml,4 A 
14 vmulpd Ox60(%rax),%ymmO0,%ymm0 / Parallel mul %ymml,4 A 


15 add %r8,%rax 1 register %rax = %rax + %r8 

16 cmp %rl10,%rcx 1 compare %r8 to %rax 

17 vaddpd %ymm5 ,%ymm2 .%ymm2 让 Parallel add %ymm5 ，%ymm2 

18 vaddpd %ymm0 ,%ymml ,%ymm1l 1 Parallel add %ymm0, %ymml 

19 jne 68 《dgemm+0x68> 1 branch if %r8 != %rax 

20 add $0xl1 ,%esi l/register % esi = % esi+1 

21 vmovapd %ymm4,(%rll) M Store %ymm4 into 4 C elements 
22 vmovapd %ymm3 .0x20(%rll) 1 Store %ymm3 into 4 C elements 
23 vmovapd %ymm2,0x40(%rll) / Store %ymm2 into 4 C elements 
24 vmovapd %ymml,0x60(%rll) / Store %ymml into 4 C elements 











4-79 对 图 4-78 中 循环 展开 后 的 C 代码 编译 产生 的 赃 套 循环 体 的 x86 汇编 语言 


图 4-80 给 出 了 使 用 DGEMM 计算 32 x 32 的 矩阵 时 ， 从 使 用 未 优化 的 AVX 到 使 用 循 
环 展开 的 AVX 时 性 能 的 增长 情况 。 其 中 ， 循 环 展 开 使 性 能 翻 倍 ， 由 6.4GFLOPS 增加 到 了 
14.6GFLOPS。 相 对 于 图 3-21 中 未 优化 的 DGEMM， 子 字 吃 洗 和 指令 级 瞩 答 优化 获得 了 
8.59 的 加 速 比 。 

贱 岂 如 3.8 节 中 精 解 所 提 到 的 ， 这 些 结果 是 在 Turbo 模式 关闭 情况 下 获得 的 。 如 果 将 
Turbo 模式 打开 ， 与 第 3 章 相同 ， 时 钟 频率 临时 提高 了 .3.3/2.6=1.27 倍 ， 未 优化 的 DGEMM 
性 能 提升 为 2.1GFLOPS， 使 用 AVX 性 能 提升 为 8.1GFLOPS， 同 时 使 用 循环 展开 和 AVS 性 
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能 提升 为 18.6 GFLOPS。 如 3.8 节 所 述 ， 当 一 个 八 核 芯片 中 只 使 用 一 个 核 时 Turbo 模式 会 工 
作 得 很 好 。 

睛 解 尽管 寄存 器 $ymm5 在 图 4-69 中 第 9 ~ 17 行 被 重用 ， 但 由 于 Intel Core i7 流水 线 
对 寄存 器 进行 了 重 命名 ， 因 此 没有 流水 线 阻 塞 。 


2 EC 7099 于 了 下 < 
14.6 


GFLOPS 











未 优化 AVX AVX+ 展 开 
图 4-80 三 个 用 于 计算 32 x 32 矩阵 的 DGEMM 版 本 的 性 能 。 相 对 于 图 3-21 中 未 优化 的 代码 ， 子 字 并 
行 和 指令 级 并 行将 性 能 提高 了 近 9 倍 
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国 4.13 高 级 主题 : 采用 硬件 设计 语言 描述 和 建 模 流水 线 的 数字 设计 技术 
以 及 更 多 流水 线 示 例 
现代 数字 设计 采用 硬件 描述 语言 和 现代 计算 机 辅助 综合 工具 完成 ， 其 中 辅助 综合 工具 
能 使 用 库 和 多 加 综合 将 描述 转化 为 详细 的 硬件 设计 。 关 于 这 些 语言 及 其 在 数字 设计 中 的 使 
用 有 相关 书籍 说 明 。 本 节 (在 配套 网 站 上 ) 仅 进行 简单 的 介绍 ， 并 展示 了 一 种 硬件 设计 语 
言 (Verilog) 如 何 分 别 从 行为 级 和 硬件 可 综合 的 形式 描述 处 理 器 控制 。 然 后 提供 了 一 系列 用 
Verilog 描述 的 五 级 流水 线 的 行为 级 模型 。 最 初 的 模型 忽略 了 冒险 ， 随 后 增加 的 部 分 强调 了 旁 
路 、 数 据 冒 险 和 分 支 冒险 所 做 的 改变 。 
我 们 接着 提供 了 大 量 使 用 单 时 钟 周期 图 形 化 流水 线 表示 的 示意 图 ， 以 帮助 读者 更 好 地 理 
解 执行 一 连 串 LEGv8 指令 时 流水 线 的 工作 细节 。 


4.14” 廖 误 与 陷阱 


雇 误 : 流水 线 很 简单 。 
本 书证 明了 正确 执行 的 流水 线 的 精妙 之 处 。 我 们 另 一 本 书 (《 计 算 机 体系 结构 : 量化 研 
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究 方 法 》) 的 第 1 版 尽管 经 过 了 上 百人 的 审阅 ， 并 且 曾 经 在 18 个 大 学 的 课堂 上 使 用 过 ， 但 仍 
然 存在 一 个 流水 线 方面 的 错误 (bug)。 直 到 有 人 根据 该 书 设计 处 理 器 时 才 发 现 了 这 个 错误 。 
用 Verilog 来 描述 一 个 如 Intel Core i7 的 流水 线 需 要 成 千 上 万 行 代码 ， 可 见 流水 线 的 复杂 。 
此 设计 流水 线 必须 非常 小 心 ! 

廖 误 : 流水 线 概念 的 实现 与 工艺 无 关 。 

当 芯 片上 晶体 管 的 数量 和 晶体 管 的 速度 决定 五 级 流水 线 是 最 好 的 方案 时 ， 延 迟 分 支 
( 4.5.2 节 的 精 解 ) 是 一 种 简单 的 处 理 控制 冒险 的 方法 。 但 对 于 长 流水 线 、 超 标量 执行 以 及 动 
态 分 支 预测 ， 延 迟 分 支 变 为 元 余 。 在 20 世纪 90 年 代 早期 ， 动 态 流水 线 调度 耗费 太 多 资源 且 
不 需要 用 于 高 性 能 。 但 随 着 晶体 管 预 算 持续 翻 倍 ( 改 铺 定律 )， 并 且 逻 辑 电路 变 得 比 存储 器 更 
快 ， 多 个 功能 单元 和 动态 流水 线 变 得 更 有 意义 。 而 如 今 ， 对 于 功 耗 的 考虑 将 导致 设计 变 得 少 
激进 但 更 高 效 。 

陷阱 : 没有 考虑 指令 集 的 设计 将 反 过 来 影响 流水 线 。 

流水 线 中 的 很 多 困难 都 是 由 指令 集 的 复杂 性 造成 的 ， 例 如 下 面 的 例子 ， 

。 指令 长 度 和 指令 运行 时 间 变 化 太 大 会 导致 各 流水 级 的 不 均衡 ， 并 且 在 指令 集 一 级 严重 

增加 了 流水 线 设计 中 冒险 检测 的 复杂 度 。 这 个 问题 已 经 解决 ， 早 在 20 世纪 80 年 代 后 
期 的 DEC VAX 8500 中 ， 便 采用 了 微 操作 和 微 流水 线 ( micropipeline) 的 方案 ， 这 也 
是 今天 Intel Core i7 所 采用 的 方案 。 当 然 ， 在 微 操作 和 实际 指令 间 的 转化 和 一 致 性 维 
护 上 依旧 存在 开销 。 
复杂 的 寻 址 模式 可 能 导致 很 多 难题 。 更 新 寄存 器 的 寻 址 模式 会 使 冒险 的 检测 更 为 复 
杂 。 而 需要 多 次 访问 存储 器 的 寻 址 模式 会 使 流水 线 的 控制 复杂 化 ， 并 且 难 以 保持 流水 
线 平稳 流动 。 
最 好 的 例子 可 能 是 DEC Alpha 和 DEC NVAX- Alpha 的 新 指令 集 使 得 其 性 能 是 
NVAX 性 能 的 两 倍 多 。 另 一 个 例子 中 ，Bhandarkar 和 Clark [ 1991 ] 通过 统计 SPEC 
基准 测试 程序 运行 的 时 钟 周期 数 ， 比 较 了 MIPS M/2000 和 DEC VAX 8700， 得 到 的 
结论 为 : 尽管 MIPS M/2000 执行 了 更 多 的 指令 ， 但 是 VAX 执行 的 平均 时 钟 周期 数 是 
MIPS 的 2.7 倍 ， 因 此 MIPS 更 快 。 


4.15 ”本 章 小 结 

本 章 我 们 看 到 ， 处 理 器 的 数据 通路 和 控制 器 的 设计 ， 可 以 从 指 
令 集 体系 结构 和 对 工艺 基本 特性 的 理解 开始 。 在 4.3 节 中 ， 我 们 看 
到 了 一 个 LEGv8 处 理 器 的 数据 通路 如 何 基于 指令 集体 系 结构 和 单 周 
期 实现 构造 起 来 。 当 然 ， 底 层 的 工艺 也 影响 了 很 多 设计 决策 ， 如 数 
据 通路 中 哪些 部 件 可 用 ， 以 及 单 周期 实现 是 否 有 意义 等 。 

瑟 丐 线 提高 了 吞吐 率 ， 但 不 能 提高 指令 固有 的 执行 时 间或 指 | 一 条 指令 国有 
令 延 迟 (instruction latency) ; 对 某 些 指令 而 言 ， 指 令 延 迟 与 单 周 期 | 的 执行 时 间 
实现 的 长 度 类 似 。 多 指令 发 射 在 数据 通路 中 增加 了 额外 的 硬件 ， 允 
许 每 个 时 钟 周 期 有 多 条 指令 开始 ， 但 是 却 增加 了 有 效 延 迟 。 流 水 线 作 为 减少 简单 的 单 周期 
实现 数据 通路 的 时 钟 周期 的 技术 被 提出 。 相 比 之 下 ， 多 发 射 关注 减少 每 条 指令 的 时 钟 周期 
数 (CPID)。 

流水 线 和 多 发 射 都 试图 开发 指令 级 并 行 。 数据 和 控制 依赖 的 存在 〈 可 能 导致 冒险 )， 是 限 





百 分 之 九 十 的 智慧 是 聪明 
得 及 时 。 
类 国 席 语 
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制 有 多 少 并 行 性 能 被 开发 的 主要 因素 。 在 软件 或 硬件 上 通过 咽 测 来 调度 和 推测 ， 是 降低 依赖 
对 性 能 的 影响 的 主要 手段 。 

我 们 展示 了 将 DGEMM 循环 展开 4 次 可 以 产生 更 多 的 指令 ， 从 而 充分 利用 Core i 乱 序 
执行 引擎 的 优势 ， 获 得 双 倍 以 上 的 性 能 。 

20 世纪 90 年 代 中 期 开始 使 用 的 更 长 的 流水 线 、 多 指令 发 射 和 动态 调度 技术 ， 和 帮助 维持 
了 从 20 世纪 80 年 代 早期 以 来 每 年 60% 的 处 理 器 性 能 增长 速度 。 正 如 第 1 章 中 所 提 到 的 ， 
这 些微 处 理 器 保留 了 顺序 编程 模型 ， 但 是 最 终 遇 到 了 功 耗 墙 问题 。 因 此 ， 工 业界 被 迫 转向 多 
核 处 理 器 ， 在 更 粗 粒度 上 开发 并 行 性 (第 6 章 的 主题 )。 这 种 趋势 也 迫使 设计 者 对 20 世纪 90 
年 代 中 期 以 来 发 明 的 一 些 功 耗 - 性 能 含义 重新 进行 评估 ， 其 结果 是 在 最 新 的 微 体系 结构 中 简 
化 了 流水 线 。 

为 了 维持 通过 并 行 处 理 器 带 来 的 性 能 提升 ，Amdahl 定律 预言 系统 中 的 其 他 部 件 将 会 成 
为 瓶颈 。 这 个 瓶颈 就 是 下 一 章 要 讨论 的 主题 一 一 志 也 器 层次 结构 . 


4.16 ”历史 观点 与 拓展 阅读 


本 节 放 在 配套 网 站 中 ,讨论 了 第 一 个 流水 线 处 理 器 、 最 早 的 超标 量 处 理 器 、 乱 序 执行 与 
推测 执行 技术 的 发 展 ， 以 及 同期 编译 器 技术 的 发 展 。 


4.17 练习 题 


4.1 考虑 下 面 的 指令 : 
指令 :AND Rd，Rn，Rnm 
解释 : Reg[Rd] = Reg[Rn] AND Reg[Rm] 
4.1.1 [5] <4.3> 对 该 指令 ， 图 4-10 中 的 控制 单元 产生 的 控制 信号 的 值 是 多 少 ? 
4.1.2 [5 ] < 4.3 > 对 该 指令 ， 哪 些 资源 (功能 单元 ) 是 有 用 的 ? 
4.1.3 [10] <4.3 > 对 该 指令 ， 哪 些 资源 (功能 单元 ) 不 会 产生 输出 ? 哪些 产生 的 输出 不 会 被 使 用 ? 
4.2 [10] <4.4> 解 释 图 4-18 中 的 每 个 “无 关 项 " 。 
4.3 ”考虑 下 面 的 指令 组 合 : 




















WEN SP ON ET TR 
24% | 28% | 25% 匡 10% | 11% 

4.3.1 [5] <4.4> 多 少 指令 用 到 数据 存储 ? 

4.3.2 [5] <4.4> 多少 指令 用 到 指令 存储 ? 

4.3.3 [5] <4.4> 多 少 指令 用 到 符号 扩展 ? 

4.3.4 [5] <4.4> 不 需要 符号 扩展 输出 的 时 钟 周 期 里 ， 符 号 扩展 做 什么 ? 


4.4 ” 硅 芯 片 在 制造 过 程 中 ， 材 料 (如 硅 ) 的 缺陷 和 生产 错误 可 能 导致 产生 有 缺陷 的 电路 。 非 常常 见 的 
一 个 缺陷 是 信号 线 损坏 ， 总 是 为 逻辑 0， 称 为 “固定 0”(stuck-at-0 ) 故障 。 
4.4.1 [5] <44> 如果 MemToReg 线 固 定 为 0， 哪 些 指 令 不 能 正确 操作 ? 
4.4.2 [5] <4.4> 如 果 ALUSre 线 固定 为 0， 哪 些 指令 不 能 正确 操作 ? 
4.4.3 [5] <4.4> 如 果 Reg2Loc 线 固定 为 0， 哪 些 指令 不 能 正确 操作 ? 
4.5 ”这 道 练习 题 详细 检查 一 条 指令 在 单 周期 数据 通路 中 如 何 执行 。 下 面 的 问题 都 是 在 一 个 时 钟 周期 
内 ， 其 中 处 理 器 取得 指令 字 0xf8014062。 
4.5.1 [5] <44> 该 指令 字 的 符号 扩展 和 左 移 2 位 单元 (靠近 图 4-23 顶部 ) 的 输出 是 什么 ? 
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4.5.2 
4.5.3 
4.5.4 
4.5.5 
4.5.6 

4.6 
4.6,1 


4.6.2 
4.7 


4.9.1 
4.9.2 
4.9.3 

4.10 


[10] < 4.4> 该 指令 ALU 控制 单元 的 输入 值 是 什么 ? 

[5] <4.4> 该 指令 执行 后 ， 新 的 PC 地 址 是 什么 ”高 亮 标 出 该 值 决定 的 路 径 。 

[10] < 4.4 > 给 出 指令 执行 过 程 中 每 个 多 路 选择 器 的 输入 和 输出 值 。 列 出 Reg [xn] 的 输出 值 。 
[10] <4.4>ALU 和 两 个 加 法 单元 的 输入 值 是 什么 ? 

[10] <4.4> 寄存 器 单元 的 所 有 输入 值 是 什么 ? 

4.4 节 没 有 讨论 像 ADDI 或 ANDI 这 样 的 1 型 指 邻 。 

[5 ] <4.4> 如 果 在 图 4-23 中 给 出 的 CPU 中 增加 工 型 指令 ， 需 要 增加 哪些 逻辑 块 ? 在 图 4-23 中 
增加 必需 的 逻辑 块 ， 并 解释 增加 的 目的 。 

[10] < 4.4> 列 出 控制 单元 为 &DDI 指令 产生 的 信号 值 。 解 释 所 有 “无 关 ” 控 制 信号 的 原因 。 
本 练习 题 假定 在 实现 处 理 器 的 数据 通路 时 ,逻辑 模 块 的 延迟 如 下 : 


EN 中 
D-Mem E 


[250ps | 150ps [25ps[200ps|150ps| 5ps | 30ps | 20ps | 50ps | 50ps 


“寄存 器 读 ” 是 指 时钟 上 升 沿 到 来 后 新 寄存 器 值 出 现在 输出 端 所 需要 的 时 间 。 这 个 值 只 适用 于 
PC-“ 寄 存 器 建立 ”是 指 时 钟 上 升 沿 到 来 之 前 ， 寄 存 器 输入 数据 保持 稳定 所 需要 的 时 间 。 这 
个 值 同时 适用 于 PC 值 和 寄存 器 文件 。 

20 ] < 4.4> 尽管 控制 单元 总 共 需 要 50ps， 碰 巧 我 们 可 以 直接 从 指令 中 提取 Reg2Loc 控制 线 的 
正确 值 。 因 此 ， 该 控制 线 的 值 可 以 和 指令 同时 得 到 。 请 解释 如 何 能 够 直接 从 指令 中 提取 该 值 。 
提示 : 仔细 检查 图 2-20 所 示 的 操作 码 。 同 时 ， 记 住 LSR 和 LSL 不 需要 使 用 Rm 字段 。 最 后 ， 
忽略 STXR。 

5] <4.4 > R 型 指令 的 延迟 是 多 少 ? ( 即 R 型 指令 正确 工作 需要 多 长 的 时 钟 周期 ? ) 

10] < 4.4 > LDUR 指令 的 延迟 是 多 少 ? (仔细 检查 你 的 答案 。 许 多 学 生 在 关键 路 径 上 放置 了 额 
外 的 多 路 选择 器 。) 

[10] <4.4> STUR 指令 的 延迟 是 多 少 ? (仔细 检查 你 的 答案 。 许 多 学 生 在 关键 路 径 上 放置 了 额 
外 的 多 路 选择 器 。) 

5] <4.4> CB2 指令 的 延迟 是 多 少 ? 

5] <4.4>B 指令 的 延迟 是 多 少 ? 

5] <4.4>1 型 指令 的 延迟 是 多 少 ? 

5] <4.4> 该 CPU 的 最 小 时 钟 周 期 是 多 少 ? 

10] <4.4> 假设 你 可 以 构造 一 个 CPU， 其 每 条 指令 的 时 钟 周期 都 不 相同 。 对 于 下 面 的 混合 指 
令 , 该 新 CPU 相对 于 图 4-23 中 CPU 的 加 速 比 是 多 少 ? 












































考虑 在 图 4-23 所 示 CPU 中 增加 一 个 乘法 器 。 增 加 后 , ALU 的 延迟 增加 了 300ps， 但 指令 数 减 
少 了 5% (因为 不 再 需要 仿真 乘法 指令 ) 。 

[5] <4.4> 改 进 前 后 的 时 钟 周 期 各 是 多 少 ? 

[10 ] <4.4> 改 进 后 获得 的 加 速 比 是 多 少 ? 

[10 ] < 4.4 > 在 仍 能 改进 性 能 的 前 提 下 ，ALU 最 慢 (最 长 延迟 ) 是 多 少 ? 

当 处 理 器 设计 师 对 处 理 器 数据 通路 进行 改进 时 ， 改 进 方案 通常 依赖 于 开销 / 性 能 之 间 的 权衡 。 
在 下 列 三 个 问题 中 ,假设 从 图 4-23 给 出 的 数据 通路 开始 ， 采 用 和 练习 题 4.7 中 相同 的 延迟 ， 
开销 如 下 表 所 示 : 
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0 
| 1ooo [| 200 10 [1i00| 30 | 2000 5 100 总 500 | 

假设 将 通用 寄存 器 数量 从 32 增加 到 64 将 减少 12% 的 LDUR 和 STUR 指令 ,但 寄存 器 文件 的 
延迟 从 150ps 增加 到 160ps， 开 销 从 200 增 加 到 400。( 采 用 练习 题 4.8 的 混合 指令 ， 忽 略 练习 
题 2.18 中 讨论 的 指令 集体 系 结构 的 其 他 影响 。) 

4.10.1 [5] <4.4> 改 进 后 性 能 加 速 比 能 达到 多 少 ? 

4.10.2 [10] <4.4 > 比较 性 能 变化 和 开销 的 变化 。 

4.10.3 [10] <4.4> 结 合 刚 计算 出 的 开销 /性 能 比 ， 分 别 描述 哪 种 情况 下 可 以 增加 更 多 的 寄存 器 ， 哪 种 
情况 下 增加 寄存 器 是 没有 意义 的 。 

4.11 考察 将 指令 LWI Rd，Rm (Rn) (递增 取 ) 添加 到 LEGv8 指令 集中 的 难度 。 
解释 : Reg[Rd] = Mem[Reg[Rm]+Reg[Rn]] 

4.11.1 [5] <4.4> 该 指令 需要 (如 果 需 要 ) 哪些 新 的 功能 块 ? 
4.11.2 [5] <4.4> 哪些 已 存在 的 (如 果 有 ) 功能 块 需要 修改 ? 
4.11.3 [5 ] <4.4> 该 指令 需要 哪些 新 的 数据 通路 (如 果 有 ) ? 
4.11.4 [5] <4.4> 需 要 控制 器 中 哪些 新 的 控制 信号 (如 果 有 ) 来 支持 该 指令 ? 

4.12 ”考察 将 指令 swap Rd，Rn 添加 到 LEGv8 指令 集中 的 难度 。 
解释 : Reg[Rd] = Reg[Rn]; Reg[Rn]=Reg[Rd] 

4.12.1 [5 ] <4.4> 该 指令 需要 哪些 (如 果 有 ) 新 的 功能 块 ? 

4.12.2 [10] <4.4> 哪 些 已 存在 的 (如果 有 ) 功能 块 需要 修改 ? 

4.12.3 [5] <4.4> 该 指令 需要 哪些 新 的 数据 通路 (如 果 有 ) ? 

4.12.4 [5] <4.4> 需 要 控制 器 中 哪些 新 的 控制 信号 (如 果 有 ) 来 支持 该 指令 ? 
4.12.5 [5] <4.4> 修 改 图 4-23， 给 出 这 条 新 指令 的 一 种 实现 。 

4.13 ”考察 将 指令 ss Rd，Rm， Rn ( 存 和 ) 添加 加 到 LEGv8 指令 集中 的 难度 。 

解释 : Mem[Reg[Rd]] = Reg[Rn]+immediate 
4.13.1 [ 10 ] < 4.4 > 该 指令 需要 哪些 新 的 功能 块 (如 果 有 ) ? 
4.13.2 [10] <4.4> 哪些 已 存在 的 功能 块 需要 修改 (如 果 有 ) ? 
4.13.3 [5] < 4.4> 需 要 哪些 新 的 数据 通路 (如 果 有 ) 支持 该 指令 ? 
4.13.4 [5 ] < 4.4> 控制 器 中 需要 哪些 新 的 控制 信号 (如 果 有 ) 来 支持 该 指令 ? 
4.13.5 [5] < 4.4> 修改 图 4-23， 给 出 这 条 新 指令 的 一 种 实现 。 

4.14 [5] < 4.4> 关 键 路 径 中 ， 哪 些 指令 (如 果 有 ) 需要 符号 扩展 模块 ? 

4.15 LDUR 是 4.4 节 CPU 中 延迟 最 长 的 指令 。 如 果 修改 LDUR 和 STUR 指令 ， 去 掉 偏 移 量 ( offset) 
计算 (例如 ， 在 调用 LDUR 或 STUR 指令 之 前 必须 将 load 或 store 的 地 址 计算 出 来 )， 那么 就 
没有 指令 同时 使 用 ALU 和 数据 存储 器 。 这 种 改动 可 以 减少 时 钟 周 期 。 然 而 ， 这 也 增加 了 指令 
数 ， 因 为 很 多 LDUR 和 STUR 指令 需要 换 成 LDUR/VRADD 或 STUR/ADD 指令 组 合 。 

4.15.1 [5] <4.4> 新 的 时 钟 周 期 是 多 少 ? 
4.15.2 [10] < 4.4> 由 练习 题 4.7 中 混合 指令 构成 的 程序 在 这 个 新 CPU 上 运行 更 快 还 是 更 慢 ? 快 或 慢 
多 少 ? (出 于 简化 目的 ， 假 设 每 条 LDUR 和 STUR 指令 分 别 由 连续 的 两 条 指令 代替 。) 
4.15.3 [5] < 4.4> 影 响 程序 在 新 CPU 上 运行 速度 的 主要 因素 是 什么 ? 
4.15.4 [5] < 4.4> 你 认为 原来 的 CPU (如 图 4-23 所 示 ) 还 是 新 的 CPU 的 整体 设计 更 好 ? 
4.16 本题 考察 流水 线 对 处 理 器 时 钟 周期 的 影响 。 假 设 数据 通路 中 每 个 流水 级 延迟 如 下 : 





4.16.1 
4.16.2 
4.16.3 
4.16.4 
4.16.5 

4.17 


4.18 


4.20 


4.21 


4.21.1 


4.21.2 





| 250ps | 350ps | 150ps | 300ps | 200ps| 
假设 处 理 器 将 执行 的 指令 如 下 : 


45% | 20% 和 L 20% 15% 
[5 ] <4.5 > 流水 线 和 非 流 水 线 处理 器 的 时 钟 周 期 各 是 多 少 ? 

[10] <4.5>IDUR 指令 在 流水 线 和 非 流水 线 处 理 器 中 的 总 延迟 各 是 多 少 ? 

[10] < 4.5 > 如 果 可 以 将 数据 通路 中 的 某 个 流水 级 拆 分 成 两 个 新 的 级 ， 每 级 的 延迟 是 原来 的 一 
半 ， 那么 你 会 拆 分 哪 一 级 ”处理 器 的 新 时 钟 周期 是 多 少 ? 

[10] <4.5 > 假设 没有 阻塞 或 胃 险 ， 数 据 存储 器 的 作用 是 什么 ? 

[10] < 4.5 > 假设 没有 阻塞 或 冒险 ， 寄 存 器 单元 的 写 寄存 器 端口 的 作用 是 什么 ? 

[10] < 4.5> 在 一 个 具有 x 级 流水 线 的 CPU 中， 执行 n 条 指令 需要 的 最 少时 钟 周 期 数 是 多 少 ? 

列 出 公式 并 证 明 。 

[5] <4.5> 假设 X1 的 初始 值 是 11,X2 的 初始 值 是 22。 在 4.5 节 所 述 不 处 理 数据 冒险 ( 即 程序 
员 需 要 在 必要 的 地 方 插入 nop 指令 来 处 理 数据 冒险 ) 的 流水 线 中 执行 下 面 的 代码 。 寄 存 器 X3 
和 Xx4 的 最 终结 果 是 多 少 ? 

ADDI Xl1, X2, #5 

ADD X3, Xl, X2 

ADDI XxX4, X1, #15 

[10] <4.5> 假 设 X1 初始 为 11,X2 初始 为 22。 在 4.5 节 所 述 不 能 处 理 数据 内 险 (程序 员 需 要 
在 必要 的 地 方 插 人 nop 指令 来 处 理 数据 冒险 ) 的 流水 线 中 执行 下 面 的 代码 。 寄 存 器 X5 的 最 
终结 果 是 多 少 ? 假设 寄存 器 文件 在 时 钟 周 期 开始 时 写 ， 在 时 钟 周期 结束 时 读 。 因 此 ，ID 级 可 
以 返回 WB 级 在 同一 个 时 钟 周期 内 产生 的 结果 。4.7 节 和 图 4-51 有 详细 说 明 。 























ADDI Xx1, X2, #5 

ADD Xx3, Xl, X2 

ADDI X4, X1, #15 

ADD Xx5, Xx1, Xl 

[5] <4.5> 在 下 面 的 代码 中 添加 nop 指令 ,保证 代码 能 够 在 无 法 处 理 数据 冒险 的 流水 线 中 正确 
执行 。 

ADDI X1, Xx2, #5 

ADD Xx3, X1, X2 

ADDI X4, X1, #15 

ADD X5, Xx3, XZ2 

考虑 4.5 节 所 述 的 无 法 处 理 数据 冒险 的 流水 线 ( 即 程序 员 负 责 在 必要 的 地 方 插入 nop 指令 来 处 
理 数据 冒险 )。 假设 (优化 之 后 ) 一 个 典型 的 mn 条 指令 的 程序 需要 额外 增加 .4*n 条 nop 指令 
来 处 理 数据 冒险 。 

[5] <4.5> 假设 该 流水 线 (没有 旁 路 机 制 ) 的 时 钟 周 期 是 250ps。 假 设 增 加 旁 路 硬件 可 以 将 NOP 
指令 的 数量 从 .4*n 减少 到 .05*n， 但 时 钟 周 期 增加 到 300ps。 和 原来 的 流水 线 相 比 ， 新 流 
水 线 的 加 速 比 是 多 少 ? 

[10 ] <4.5> 不 同 的 程序 需要 不 同 数量 的 nop 指令 。 当 一 个 典型 程序 运行 在 带 旁 路 的 流水 线 之 
前 ， 程 序 中 还 有 多 少 nop 指令 (用 指令 条 数 百 分 比 表示 ) ? 
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4.21.3 


4.21.4 


4.21.5 


4.22 


4.22.1 
4.22.2 
4.22.3 
4.22.4 

4.23 
4.23.1 
4.23.2 


4.23.3 
4.24 


4.25 


4.25.1 


[10] <4.5> 重 做 练习 题 421.2， 但 这 一 次 用 x 代表 相对 于 n 的 nop 指令 的 数量 (练习 题 4.21.2 
中 ,x 等 于 .4), 答案 用 x 表示 。 

[10] <4.5> 一 个 只 有 .075*n 条 nop 指令 的 程序 能 否 在 带 旁 路 的 流水 线 中 执行 得 更 快 ? 解释 
能 或 者 不 能 的 原因 . 

[10] <4.5> 程序 在 有 旁 路 的 流水 线 中 要 执行 更 快 ， 最 少 需要 多 少 条 nop 指令 (用 指令 条 数 百 
分 比 表 示 ) ? 

[5] <4.5 > 考虑 下 面 的 LEGv8 汇编 代码 段 : 

STUR X16, [X6, #2] 

LDUR X16, [X6, #8] 

SUB X7, Xx5, X4 

CBZ X7, Label 

ADD X5, Xl1, X4 

SUB X5, X15, X4 

修改 流水 线 ， 只 保留 一 个 存储 器 (指令 和 数据 共用 一 个 存储 器 )。 这 种 情况 下 ， 如 果 在 同一 个 
时 钟 周期 内 同时 取 指 令 和 访问 数据 ， 将 产生 结构 冒险 。 

5] < 4.5 > 画 出 流水 线 图 ， 展 示 上 述 代 码 是 否 将 产生 阻塞 。 

[5 ] < 4.5 > 一 般 来 说 ,， 重 排序 代码 能 否 减少 阻塞 数 或 nop 指令 的 数量 ? 

[5 ] <4.5 > 上述 结构 冒险 必须 用 便 件 处 理 吗 ?数据 冒险 能 够 通过 添加 nop 指令 消除 ,结构 冒险 
能 够 用 相同 的 方法 处 理 吗 ? 如 果 能 ， 给 出 解决 方案 ;如果 不 能 ， 解 释 一 下 原因 。 

5] < 4.5 > 你 认为 该 结构 冒险 将 导致 一 个 典型 的 程序 产生 多 少 阻塞 (使 用 练习 题 4.8 给 出 的 混 
合 指令 ) ? 

如 果 用 寄存 器 作为 load/store 指令 的 存储 地 址 (无 偏 移 量 )， 那 么 这 些 指令 将 不 再 需要 使 用 ALU 
(参见 练习 题 4.15 )。 因 此 ，MEM 和 EX 流水 级 可 以 重 碍 ， 流 水 线 只 有 四 级 。 

10 ] < 4.5 > 流水 线 深度 的 减少 对 时 钟 周期 有 何 影响 ? 

5] <4.5 > 这 种 改变 将 如 何 提升 流水 线 的 性 能 ? 

5] <4.5> 这 种 改变 将 如 何 降低 流水 线 的 性 能 ? 

10 ] <4.7> 下 面 两 个 流水 线 示意 图 ， 哪 个 更 好 地 描述 了 流水 线 冒 险 检测 单元 的 操作 ? 为 什么 ? 

选项 1; 

LDUR X1, [X2, #0]: IF ID EX ME WB 

ADD X3, X1, X4: IF ID EX..ME WB 

ORR X5, X6, X7: IF ID..EX ME WB 

选项 2: 


LDUR x1, [X2, #0]: IF ID EX ME WB 
ADD X3，X1，X4: IF 1D..EX ME WB 
ORR X5，X6，X7: IF..ID EX ME WB 


考虑 下 面 的 循环 : 


LOOP: LDUR X10, [xX1, #0] 
LDUR X11, [X1, #8] 
ADD Xl2. X10, X11 
SUBI Xl1, xX1, #16 
CBNZ X12, LOOP 


假设 使 用 了 完美 的 分 支 预测 (没有 控制 依赖 引起 的 阻塞 )， 没有 延迟 模 ， 流 水 线 支持 完全 旁 路 
机 制 ， 分 支 处 理 在 EX 级 (不 是 ID 级 ) 进行 。 
[10] <4.7 > 画 出 该 循环 前 两 次 迭代 的 流水 线 执行 图 。 
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4.25.2 


4.26 


4.26.1 
4.26.2 


4.26.3 


4.26.4 


4.26.5 


4.26.6 


[10] <4.7> 标记 出 做 无 用 功 的 流水 线 级 。 流 水 线 满 负荷 工作 ， 某 个 时 钟 周期 中 五 个 流水 级 全 部 
都 在 进行 有 效 工作 的 频率 是 多 少 ? (从 SUBI 指令 位 于 I 级 的 时 钟 周 期 开始 ， 到 CBN2Z 指令 位 
于 IF 级 的 时 钟 周期 结束 .) 

本 题 旨 在 帮助 你 理解 流水 线 处 理 器 中 旁 路 机 制 的 代价 / 复杂 度 / 性 能 的 权衡 。 本 练习 中 的 问题 
涉及 图 4-53 中 的 流水 线 数据 通路 。 假 设 处 理 器 执行 的 所 有 指令 中 ， 有 RAW 数据 依赖 的 指 
令 所 占 比 例如 下 表 所 示 。RAW 数据 依赖 被 产生 结果 的 流水 级 ( EX 或 MEM 级 ) 和 使 用 该 
结果 的 下 一 条 指令 (产生 结果 的 指令 后 紧 跟 的 第 一 条 或 第 二 条 指令 ) 检测 到 。 假 设 寄存 器 写 
在 时 钟 周 期 前 半 段 完成 ， 寄 存 器 读 在 时 钟 周 期 的 后 半 段 完成 ， 因 此 “EX 到 第 3 条 指令 ”和 
“MEM 到 第 3 条 指令 ”的 依赖 关系 不 会 被 计算 在 内 ， 因 为 这 两 种 情况 不 会 引起 数据 依赖 。 
同样 假设 分 支 在 EX 级 处 理 (应 该 是 ID 级 )， 并 且 如 没有 数据 依赖 ， 处 理 器 的 CPI 为 1。 





EX to jand EX 


假设 每 个 流水 级 的 延迟 如 下 所 示 。 对 于 EX 级 ,分 别 给 出 没有 旁 路 机 制 和 有 不 同类 型 旁 路 机 
制 时 处 理 器 的 延迟 。 


[120ps | 100ps | 110ps | 130ps | i120ps | 120ps 120ps | 100ps 

5] <4.7> 对 于 上 面 列 出 的 每 种 RAW 依赖 ,给 出 至 少 三 条 汇编 语句 来 表示 该 依赖 。 

5 ] <4.7> 对 于 上 面 列 出 的 每 种 RAW 依赖 ， 需 要 在 练习 题 4.26.1 你 所 提供 的 代码 中 插入 多 
少 nop 指令 才能 在 没有 旁 路 机 制 或 冒险 检测 的 流水 线 中 正确 执行 ? 给 出 nop 指令 插入 的 
位 置 。 

10 ] <4.7> 单独 分 析 每 条 指令 将 多 计算 程序 在 没有 旁 路 机 制 或 冒险 检测 的 流水 线 中 正确 执行 所 
需 的 nop 指令 的 数量 。 写 一 个 三 条 汇编 语句 组 成 的 语句 序列 ， 当 单独 分 析 每 条 指令 时 ， 插 人 
的 阻塞 数 将 比 该 序列 为 了 避免 数据 依赖 实际 需要 的 阻塞 数 多 

5] < 4.7 > 假设 没有 其 他 冒险 ， 上 表 描述 的 程序 在 没有 旁 路 机 制 的 流水 线 中 运行 的 CPI 是 多 
少 ? 阻塞 所 占 的 时 钟 周期 数 的 比例 是 多 少 ? (为 便于 简化 ,假设 所 有 必需 的 条 件 都 在 上 表 中 列 
出 ， 并 都 能 单独 进行 分 析 处 理 。) 

5 ] < 4.7 > 如 果 采 用 全 旁 路 机 制 ( 旁 路 转发 所 有 能 够 转发 的 结果 ),CPI 是 多 少 ? 阻塞 的 时 钟 周 
期 数 所 占 比 例 是 多 少 ? 

10 ] < 4.7 > 假设 无 法 提供 全 旁 路 机 制 需 要 的 三 输入 多 路 选择 器 。 现 在 需要 判断 只 从 EX/MEM 
流水 线 寄存 器 进行 转发 (下 一 时 钟 周期 转发 ) 的 效果 更 好 ， 还 是 只 从 MEM/WB 流水 线 寄存 器 
进行 转发 (两 个 周期 后 转发 ) 更 好 。 每 种 选择 的 CPI 是 多 少 ? 

[5] <4.7> 对 于 给 出 的 冒险 发 生 的 可 能 性 和 各 个 流水 线 级 的 延迟 ， 相 对 于 无 旁 路 机 制 的 流水 线 ， 

每 类 旁 路 机 制 (EX/MEM 、MEM/WB 或 全 旁 路 机 制 ) 获得 的 加 速 比 是 多 少 ? 

[5 ] < 4.7 > 如 果 采 用 “穿越 ”转发 机 制 来 消除 所 有 的 数据 依赖 ， 和 练习 题 4.26.7 提供 的 最 快 

的 处 理 器 相 比 ， 此 时 获得 的 额外 的 加 速 比 是 多 少 ? 假设 这 种 待 实现 的 “穿越 ”转发 机 制 使 得 全 
转发 的 EX 级 的 延迟 增加 100ps。 

[5] <4.7> 冒险 类 型 表 区 分 了 “EX to 1” 以 及 “EX to 1*and EX to 2"” 的 人 口 。 为 什么 没有 


Read After Write， 写 后 读 。 一 一 译 者 注 


























376 











377 











266 


第 4 莫 











378 








4.27.1 
4.27.2 


4.27.3 


4.27.4 


4.27.5 


4.27.6 


4.28 


4.28.1 


4.28.2 
4.28.3 
4.28.4 


4.28.5 


4.28.6 


4.29 


4.29.1 


“MEM to lsandMEMto2" ”的 人 口 ? 
本 题 用 到 下 面 的 指令 序列 。 假 设 该 指令 序列 在 一 个 五 级 流水 线 的 数据 通路 中 执行 。 


ADD xX5, X2, Xl 
LDUR X3, [XS5, #4] 
LDUR xX2, [X2, #0] 
ORR  X3，X5，X3 
STUR XxX3, [Xx5, #0] 


5 ] <4.7> 如 果 没 有 转发 或 者 冒险 检测 ,插入 nop 指令 保证 该 指令 序列 的 正确 执行 

10 ] <4.7> 现在 ,修改 或 重 排 该 指令 序列 以 将 需要 的 nop 指令 减少 到 最 少 。 假 设 在 修改 后 的 
代码 中 ，X7 寄存 器 可 以 用 来 存储 临时 变量 。 
10 ] <4.7> 假设 处 理 器 有 转发 机 制 ， 但 是 忘记 实现 冒险 检测 单元 ， 那 么 题目 提供 的 原始 代码 执 
行 时 会 发 生 什 么 情况 ? 
20] < 4.7> 假设 有 转发 机 制 ， 在 代码 执行 的 前 七 个 时 钟 周 期 ， 图 4-59 中 的 转发 单元 和 冒险 检 
测 单元 每 个 时 钟 周期 将 发 出 哪些 信号 ? 

10 ] < 4.7 > 如 果 没 有 转发 机 制 ， 图 4-59 中 的 冒险 检测 单元 需要 哪些 新 的 输入 和 输出 信和 号? 用 
本 题 提供 的 指令 序列 作为 例子 ， 解 释 每 个 信号 增加 的 原因 

20 ] < 4.7 > 对 于 练习 题 4.27.5 提供 的 新 的 冒险 检测 单元 ， 说 明 指令 序列 执行 的 前 五 个 时 钟 周 
期 都 发 出 了 哪些 输出 信号 。 
好 的 分 支 预测 器 的 作用 取决 于 条 件 分 支 执行 的 频率 。 再 加 上 分 支 预 测 器 的 精度 ， 两 者 决定 了 分 
支 预测 错误 将 产生 多 少 阻塞 。 本 题 中 ， 假 设 动态 指令 可 被 分 为 如 下 几 类 : 


40% 25% 5% 25% 5% 


























同时 ， 假 设 分 支 预测 器 精度 如 下 : 














45% 55% 85% 











[10] < 4.8 > 分 支 预测 失败 导致 的 阻塞 周期 将 增加 CPI。“ 总 是 执行 ”预测 器 预测 失败 导致 的 
额外 CPI 是 多 少 ? 假设 没有 数据 依赖 ， 没 有 使 用 延迟 模 ， 分 支 结 果 在 ID 级 产生 ,在 EX 级 
使 用 
[10] <4.8> 对 于 “总 是 不 执行 ”预测 器 ,重复 练习 题 4.28.1 中 的 分 析 。 

[10] <4.8> 对 于 2 位 预测 器 ， 重 复 练习 题 4.28.1 中 的 分 析 。 

[10] <4.8> 对 于 2 位 预测 器 ， 如 果 将 一 半 的 分 支 指令 转换 成 一 些 ALU 指令 ， 将 获得 怎样 的 加 
速 比 ? 假设 正确 预测 和 非 正 确 预 测 的 指令 被 替换 的 可 能 性 相同 。 

[10] <4.8> 对 于 2 位 预测 器 .如 果 将 一 半 的 分 支 指令 每 条 替换 成 两 条 ALU 指令 ,将 获得 怎样 
的 加 速 比 ? 假设 正确 预测 和 非 正确 预测 的 指令 被 替换 的 可 能 性 相同 。 

[10] <4.8> 某 些 分 支 指令 比 其 他 的 更 易 预测 。 如 果 所 有 执行 的 分 支 指令 中 有 80% 很 容易 预测 
的 回环 (loop-back) 分 支 (这 类 分 支 总 是 能 预测 成 功 )， 那 么 2 位 预测 器 对 于 剩 下 20% 的 分 支 
指令 的 预测 精度 如 何 ? 

本 题 考 察 不 同类 型 的 分 支 预测 器 对 于 下 面 这 种 重复 分 支 输出 模式 ( 即 一 个 循环 中 ) 的 预测 精度 ; 
Tr Ny Ts Te Re 

[5 ] <4.8 > “总 是 执行 ”和 “总 是 不 执行 ”预测 器 对 于 该 序列 分 支 结果 的 预测 精度 如 何 ? 
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4.30.4 


4.30.5 


[5 ] <4.8> 2 位 预测 器 对 于 该 序列 中 的 前 四 条 分 支 指令 的 预测 精度 如 何 ” 假设 预测 器 从 图 4-62 
左下 角 的 状态 (预测 不 发 生 ) 开始 预测 。 

[10] < 4.8 > 如 果 该 模式 一 直 重 复 下 去 ，2 位 预测 器 的 预测 精度 如 何 ? 

[30] <4.8> 设 计 一 个 预测 器 ， 在 该 模式 无 限 重复 下 去 的 情况 下 能 够 达到 完美 的 预测 精度 。 设 计 
的 预测 器 应 该 是 一 个 时 序 电路 ， 其 一 个 输出 提供 一 个 预测 ( 1 代表 跳 转 ，0 代表 不 跳 转 ) ; 只 
有 时 钟 作为 输入 ; 控制 信号 指出 该 指令 是 一 条 条 件 分 支 指令 。 

[10] <4.8> 如 果 给 出 一 个 和 该 题 提供 的 模式 完全 相反 的 模式 ， 练 习题 4.29.4 中 设计 的 预测 器 
的 预测 精度 如 何 ? 

[20 ] <4.8> 重复 练习 题 4.29.4， 但 此 次 设计 的 预测 器 要 求 能 够 完美 地 预测 (在 预测 的 预 热 周期 
之 后 ， 预 热 周 期 允许 预测 失败 ) 该 题 中 的 模式 及 其 相反 模式 。 该 预测 器 应 该 有 一 个 输入 来 告 
诉 预 测 器 真正 的 输出 是 什么 。 提 示 : 该 输入 可 以 使 得 预测 器 能 够 判断 给 出 的 是 哪 种 重复 模式 。 
本 题 分 析 异 常 处 理 如 何 影响 流水 线 设计 。 前 三 个 问题 使 用 下 面 这 两 条 指令 : 


CB2 X1, LABEL LDURX1, [x2,#0] |] 














5 ] <4.9> 这 些 指令 能 够 触发 哪些 异常 ”对 于 触发 的 每 个 异常 ， 说 明 该 异常 会 在 哪个 流水 级 被 
检测 到 。 

10 ] < 4.9 > 如 果 每 个 异常 都 有 独立 的 异常 处 理 入 口 地 址 。 那么 如 何 修改 流水 线 的 设计 才能 处 理 
异常 ? 可 以 假设 设计 处 理 器 时 知道 异常 处 理 程序 的 人 口 地 址 。 

10 ] < 4.9 > 如 果 第 二 条 指令 在 第 一 条 指令 之 后 被 立即 取出 ， 描 述 当 第 一 条 指令 触发 了 4.30.1 
题 中 你 列 出 的 第 一 个 异常 时 ， 流 水 线 会 发 生 什 么 情况 ? 给 出 从 第 一 条 指令 被 取出 到 异常 处 理 
程序 的 第 一 条 指令 完成 期 间 的 流水 线 执行 图 。 

20 ] < 4.9> 向 量化 异常 处 理 中 ， 异 常 处 理 程序 的 入 口 地 址 表 存放 在 数据 存储 器 中 的 一 个 已 知 
(固定 ) 地 址 中 。 改 变 流水 线 结构 来 实现 这 种 异常 处 理 机 制 。 使 用 修改 的 流水 线 和 向 量化 异常 
处 理 ， 重 复 练习 题 4.30.3。 
15 ] < 4.9 > 现在 我 们 在 一 台 只 有 一 个 固定 入 口 地 址 的 机 器 上 仿真 向 量化 异常 处 理 (如 练习 题 
4.30.4 所 述 )。 写 出 该 固定 异常 处 理 程序 入 口 地 址 的 代码 。 提 示 : 这 段 代 码 应 能 够 识别 异常 ， 
从 异常 处 理 向 量 表 中 获得 正确 的 异常 处 理 程序 地 址 ， 然 后 将 执行 交 给 异常 处 理 程序 。 
本 题 对 单 发 射 和 双 发 射 处 理 器 的 性 能 进行 比较 ， 将 优化 双 发 射 执行 可 实施 的 代码 转换 考虑 在 内 。 
本 题 使 用 下 面 的 循环 〈C 语言 编写 ): 
for(i=0:Tl=j;i+=2) 

b[i]j=a[i]-a[i+l]; 
进行 少量 优化 或 不 进行 优化 的 编译 器 可 能 产生 下 面 这 段 LEGv8 汇编 代码 : 


MOV  X5，XZR 
B ENT 
TOP: LSL X10, x5, #3 
ADD X11, Xx1, X10 
LDUR X12, [X11, #0] 
LDUR X13, [X11, #8] 
SUB X14, X12, X13 
ADD X15, x2, x10 
STUR X14, [X15, #0] 
ADDI X5, Xx5, #2 
ENT: CMP Xx5, X6 
B.NE TOP 
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4.31.1 


4.31.2 


4313 [ 
果 j=0， 用 指令 “CB2 X6，X2R，DONE ”直接 跳出 循环 。 


4.31.4 


4.31.5 


4.31.6 


4.31.7 


4.31.8 


4.32 


上 面 


的 代码 用 到 下 面 这 些 寄存 器 : 
ERIEESEEIEEREE 


X10 一 X15 




















假设 本 题 中 的 双 发 射 、 静 态 调度 处 理 器 有 如 下 特性 ; 

1, 一 条 指令 必须 是 存储 器 操作 ， 另 一 条 指令 必须 是 算术 / 逻辑 运算 指令 或 一 条 分 支 指令 。 

2. 处 理 器 流水 线 的 各 级 间 有 所 有 可 能 的 转发 路 径 (包括 到 ID 级 的 用 于 解决 分 支 问题 的 路 径 ) 
3. 处 理 器 有 完美 的 分 支 预 测 。 


4. 如 
5. 如 
做 完 
30 


20 


30 
10 


10 

代码 

假设 
20 


10 
器 到 
30 





开 循 


器 的 


原来 


性 能 
循环 


果 一 条 指令 依赖 于 另外 一 条 ， 两 条 指令 不 会 在 同一 个 包 中 一 起 发 射 ( 见 4.10.2 节 )。 

果 需 要 阻塞 ， 发 射 包 中 的 两 条 指令 都 需要 阻塞 ( 见 4.10.2 节 )。 

这 些 练习 题 你 会 发 现 ， 要 获得 达到 近似 最 优 加 速 比 的 代码 需要 做 多 少 工作 。 

<4.10> 给 出 一 个 流水 线 执行 图 ， 展 示 上 述 LEGv8 代码 在 双 发 射 处 理 器 上 如 何 执行 。 假 设 
迭代 后 循环 退出 。 


] <4.10 > 从 单 发 射 处 理 器 到 双 发 射 处 理 器 的 加 速 比 是 多 少 ? (假设 循环 执行 数 干 次 迭代 。) 


<4.10> 重 排 或 重 写 上 述 LEGv8 代码 ， 以 便 在 单 发 射 处 理 器 上 达到 更 好 的 性 能 。 提 示 : 如 


<4.10 > 重 排 或 重 写 上 述 LEGv8 代码 ， 以 便 在 双 发 射 处 理 器 上 获得 更 好 的 性 能 ， 但 不 要 展 
环 。 

<4.10 > 重复 练习 题 4.31.1， 此 次 使 用 练习 题 4.31.4 中 的 优化 代码 。 

<4.10> 执行 练习 题 4.31.3 和 练习 题 4.31.4 中 的 优化 代码 ， 从 单 发 射 处 理 器 到 双 发 射 处 理 
加 速 比 是 多 少 ? 

<4.10> 将 练习 题 431.3 中 的 LEGv8 代码 循环 展开 ， 展 开 的 循环 中 每 个 迭代 可 以 处 理 原来 
中 的 两 个 迭代 。 然 后 ， 重 排 或 重 写 展开 的 代码 ， 以 便 在 单 发 射 处 理 器 上 获得 更 好 的 性 能 。 
j 是 4 的 倍数 。 

<4.10> 将 练习 题 4.31.4 中 的 LEGv8 代码 循环 展开 ， 展 开 后 循环 中 的 每 个 迭代 可 以 处 理 
循环 中 的 两 个 迭代 。 然 后 ， 重 排 或 重 写 展开 的 代码 ， 以 便 在 双 发 射 处 理 器 上 获得 更 好 的 
。 你 可 以 假设 了 是 4 的 倍数 。( 提 示 : 重新 组 织 循环 ,使 得 一 些 计算 出 现在 循环 的 外 面 和 
结束 处 。 你 可 以 假设 临时 寄存 器 中 的 值 在 循环 之 后 不 再 需要 。) 

< 4.10 > 执行 练习 题 4.31.7 和 练习 题 4.31.8 中 循环 展开 以 及 优化 后 的 代码 ， 从 单 发 射 处 理 
双 发 射 处 理 器 的 加 速 比 是 多 少 ? 

< 4.10 > 重复 练习 题 4.31.8 和 练习 题 4.31.9， 但 此 次 假设 双 发 射 处 理 器 能 同时 执行 两 条 





算术 / 逻辑 指令 。( 也 就 是 说 ， 发 射 包 中 的 第 一 条 指令 可 以 是 任意 类 型 的 指令 ， 但 第 二 条 必须 


是 算 


术 或 逻辑 指令 。 两 条 存储 器 操作 指令 不 能 同时 被 调度 。) 


本 题 探 讨 能 量 效率 和 性 能 的 关系 。 本 题 假设 指令 存储 器 、 寄 存 器 和 数据 存储 器 中 的 活动 能 耗 如 
下 表 所 示 ， 数 据 通路 其 他 部 分 的 能 耗 忽略 不 计 ( 琳 存 器 读 和 寄存 器 写 只 针对 寄存 器 文件 ) 。 























140p} 120p) 








假设 


数据 通路 中 的 部 件 延 迟 如 下 表 所 示 . 数据 通路 中 其 他 部 件 的 延迟 忽略 不 计 。 











200ps | 150ps 90ps 90ps 250ps 
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4.32.1 


4.32.2 
4.32.3 


4.32.4 
4.32.5 
4.32.6 


4.33 


4.33.1 


4.33.2 


4.33.3 


4.33,4 


4.33.5 


4.33.6 


[5 ] <4.3, 4.6, 4.14> 在 单 周 期 处 理 器 和 五 级 流水 线 的 处 理 器 上 执行 一 条 ADD 指令 ， 分 别 需 要 消 
耗 多 少 能 量 ? 

[10 ] < 4.6,4.14 > 消耗 能 量 最 多 的 ARMv8 指令 是 什么 ? 执行 这 条 指令 消耗 多 少 能 量 ? 

[10 ] < 4.6, 4.14 > 如 果 降 低能 量 消耗 是 最 重要 的 ， 那 么 你 会 如 何 修改 流水 线 设计 ? 改进 之 后 ， 
执行 一 条 LDUR 指令 消耗 的 能 量 降低 了 多 少 百分比 ? 

[10] <4.6, 4.14 > 还 有 哪些 指令 能 从 练习 题 4.32.3 的 改进 中 潜在 受益 ? 

[10] < 4.6, 4.14 > 练习 题 4.32.3 的 改进 如 何 影 响 流水 线 CPU 的 性 能 ? 

[10] < 4.6, 4,14 > 我 们 可 以 去 掉 MenRead 控制 信号 ， 并 在 每 个 周期 读数 据 存储 器 ， 即 将 
MemRead 的 值 恒 置 为 1。 解 释 为 什么 这 样 改变 后 处 理 器 仍然 能 正常 工作 。 如 果 有 25% 的 指令 
是 load 指令 ， 这 个 改变 对 时 钟 频 率 和 能 耗 的 影响 是 什么 ? 

制造 硅 芯片 时 ， 材 料 (例如 ， 硅 ) 的 缺陷 和 生产 错误 会 导致 产生 错误 的 电路 。 一 个 常见 的 错误 是 
一 根 线 上 的 信号 对 另 一 个 信号 产生 影响 。 这 种 情况 称 为 串扰 ( cross-talk fault)。 有 一 类 特殊 的 
串扰 问题 ， 即 一 个 信号 连接 到 一 个 具有 常量 的 线 上 (如 电源 线 )。 这 些 故障 称 为 “固定 为 0” 
(stuck-at-0 ) 或 “固定 为 1”( stuck-at-1 ) 故障 ， 其 中 受 影 响 的 信号 总 是 具有 逻辑 值 0 或 1。 下 
面 的 问题 中 ， 故 障 发 生 在 图 4-23 中 寄存 器 文件 的 Write Register 输入 端的 第 0 位 。 

[10] < 4.3,4.4 > 假设 这 样 测试 处 理 器 的 缺陷 : 四 先 给 PC 、 寄 存 器 文件 、 数 据 和 指令 存储 器 设 
置 一 些 值 (自行 选择 填充 的 值 )，@ 执 行 一 条 指令 ，@ 读 PC、 存储 器 以 及 寄存 器 文件 。 检 查 读 
出 的 值 以 判断 处 理 器 中 是 否 存在 缺陷 。 你 能 否 设计 一 个 测试 方案 ( PC、 存储 器 以 及 寄存 器 的 
值 )， 检 查 该 信号 上 是 否 有 固定 为 0 缺陷 ? 

10] <4.3, 4.4> 重 做 练习 题 4.33.1， 这 次 检查 闫 定 为 1 缺陷 。 能 合共 设计 一 个 测试 方案 同时 检 
查 固定 为 0 缺陷 和 固定 为 1 缺陷 ? 如 果 可 以 ， 请 解释 如 何 实现 ; 如 果 不 能 ， 说 明理 由 。 

10 ] < 4.3, 4.4 > 如 果 我 们 知道 处 理 器 在 该 信号 上 有 一 个 固定 为 1 缺陷 ， 那 么 该 处 理 器 还 能 用 
吗 ? 为 了 使 这 个 处 理 器 仍然 可 用 ， 我 们 必须 将 原来 能 在 正常 LEGv8 处 理 器 上 运行 的 程序 做 一 
此 变换， 使 之 可 以 在 这 个 处 理 器 上 运行 。 假 设 指令 存储 器 和 数据 存储 器 都 很 大 ， 足 够 存储 变 
换 后 的 程序 和 额外 的 数据 。 

10 ] < 4.3, 4.4 > 重 做 练习 题 4.33.1， 此 次 检测 的 错误 是 ，Branch 控制 信号 为 0 时 , MemRead 
控制 信号 是 否 变 为 0， 变 化 则 有 缺陷 ， 否 则 无 缺陷 。 

10 ] < 4.3, 4.4 > 重 做 练习 题 4.33.1， 此 次 检测 的 错误 是 , RegDst 控制 信号 为 1 时，MemRead 
控制 信号 是 否 变 为 1， 变化 则 有 缺陷 ， 否 则 无 缺陷 。 提 示 : 该 题 需 要 操作 系统 的 相关 知识 ， 
考虑 一 下 什么 会 引起 段 错误 (segmentation fault) 。 

10 ] < 4.3, 4.4 > 重 做 练习 题 4.33.1， 此 次 检测 的 错误 是 ,Reg2Loc 控制 信号 为 0 时 , Branch 控 
制 信号 是 否 为 0， 变化 则 有 人 缺陷， 否则 无 缺陷 。 
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| 第 5 章 


Computer Organization and Design: The Hardware/Software Interface, ARM Edition 


大 容量 和 高 速度 : 开发 存储 器 层次 结构 





计算 机 的 五 个 经 典 部 件 


5.1 引言 


从 早期 的 计算 开始 ,程序 员 就 希望 拥有 无 限 容量 的 快速 存储 器 。 
本 章 帮助 程序 员 实 现 这 一 “幻想 " 。 首 先 ， 让 我 们 通过 一 个 简单 的 类 
比 来 说 明 即 将 使 用 的 关键 原理 和 机 制 。 

假定 你 是 一 个 学 生 ， 正 在 撰写 一 份 关于 计算 机 硬件 重要 历史 性 
发 展 的 论文 。 你 坐 在 图 书馆 的 桌子 前 ， 桌 上 放 着 你 正在 查阅 的 从 图 
书馆 书架 上 抽出 的 一 些 书籍 。 你 从 这 些 书 中 找到 了 需要 描述 的 几 种 
重要 的 计算 机 ， 但 是 其 中 没有 和 EDSAC 相关 的 。 因 此 ， 你 返回 书 
架 去 寻找 其 他 书 ， 并 找到 了 一 本 关于 早期 英国 计算 机 的 书 ， 其 中 覆 
盖 了 EDSAC 的 相关 内 容 。 一 旦 在 书桌 上 有 了 一 些 选 好 的 书 ， 很 可 
能 你 需要 的 内 容 都 可 以 从 这 些 书 中 找到 ,那么 你 的 大 部 分 时 间 只 需 
花 在 阅读 这 些 书 上 ， 而 无 需 返 回 书架 。 相 比 于 只 拿 一 本 书 并 反复 返 
回 书架 拿 别 的 书 ， 将 几 本 书 放 在 书桌 前 会 更 节省 时 间 。 





理想 情况 下 ， 人 们 希望 存 
储 器 容量 无 限 大 ， 这 样 ， 
任何 特定 的 情况 下 …… 都 
可 以 立刻 使 用 …… 我 们 不 
得 不 承认 构建 存储 器 层次 
结构 的 可 能 性 ， 其 中 每 一 
层 都 比 其 上 一 层 拥 有 更 大 
的 容量 ,但 访问 速度 更 慢 。 
A.W Burks, H. H. Goldstine, 
and J. von Neurmann, 
Preliminary Discussion of the 
Logical Design of an Electronic 
Computing Instrument, 1946 
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根据 同样 的 原理 ,我 们 可 以 构建 一 个 假象 ， 即 有 一 个 大 容量 的 存储 器 ， 并 能 够 像 小 容量 
存储 器 那样 被 快速 访问 。 就 像 你 不 会 以 相同 的 概率 同时 访问 图 书馆 中 所 有 的 书 那样 ， 一 个 程序 
也 不 会 以 相同 的 概率 同时 访问 全 部 代码 或 数据 。 和 否则 ， 不 可 能 让 存储 器 在 保持 大 容量 的 同时 又 
能 快速 访问 ， 就 像 你 不 可 能 把 图 书馆 中 所 有 的 图 书 放 在 书桌 上 ， 并 快速 找到 所 需 的 书 一 样 。 
局 部 性 原理 ( principle of locality) 不 仅 适 用 于 在 图 书馆 查找 资料 的 工作 方式 ， 而 且 适 用 
于 程序 的 执行 。 局 部 性 原理 指出 ， 在 任何 时 间 内 ， 程 序 仅 访问 地 址 空间 中 相对 较 小 的 一 部 分 
内 容 ， 就 像 你 仅仅 查阅 图 书馆 中 很 少 的 一 部 分 资料 一 样 。 局 部 性 有 两 种 不 同类 型 ; 
e 时间 局 部 性 (temporal locality) : 如 果 某 个 数据 项 被 访问 ， 那 二 放生 
么 在 不 久 的 将 来 它 可 能 再 次 被 访问 。 就 像 你 刚 借 了 一 本 书 放 。 | 在 被 访问 之 ,可 能 委 尖 
在 书桌 上 查阅 ， 那 么 很 可 能 你 很 快 又 会 需要 再 次 查阅 。 再 次 访问 的 局 部 性 原理 。 
空间 局 部 性 (spatial locality) : 如 果 某 个 数据 项 被 访问 ， 那 么 
与 其 地 址 相 邻 的 数据 项 可 能 很 快 也 会 被 访问 。 例 如 ， 当 你 找 “| 名 间 局 部 性 ， 类 涉 数 所 项 
到 一 本 关于 早期 英国 计算 机 的 书 了 解 EDSAC 时 ， 你 发 现 书 | 在 被 访问 之 后 ， 与 其 地 址 
架 上 和 这 本 书 紧 挨 的 另 一 本 书 也 是 关于 早期 机 械 计算 机 的 ， | 相近 的 数据 项 可 能 很 快 被 
因此 你 很 可 能 也 把 这 本 书简 走 ， 然 后 在 这 本 书 里 找到 有 用 的 | 区 站 的 局 部 星 原理 。 
信息 。 图 书馆 通常 将 主题 相同 的 书 放 在 同一 个 书架 上 以 提高 
空间 定位 效率 。 本 章 中 ， 我 们 将 看 到 空间 局 部 性 原理 如 何 应 用 于 存储 器 层次 结构 。 
正如 查阅 桌 上 的 书籍 体现 了 自然 的 局 部 性 ， 程 序 的 局 部 性 源 于 简单 自然 的 程序 结构 。 例 
如 ， 大 多 数 程序 都 包含 循环 ， 因 此 指令 和 数据 很 可 能 被 重复 访问 ， 体 现 出 高 度 的 时 间 局 部 性 。 
由 于 指令 通常 是 顺序 执行 的 ， 因 此 程序 也 呈现 了 高 度 的 空间 局 部 性 。 对 数据 的 访问 同样 体现 了 
一 种 自然 的 空间 局 部 性 。 例 如 ， 对 数组 或 者 记录 中 的 元 素 进行 顺序 访问 具有 高 度 的 空间 局 部 性 。 
我 们 可 以 利用 局 部 性 原理 将 计算 机 中 的 存储 器 实现 为 一 种 存储 
器 层次 结构 (memory hierarchy)。 存 储 器 层次 结构 由 不 同 速度 和 容量 “| 让 全 六 居 次 稍 构 :可 
的 多 级 存储 器 构成 。 越 快 的 存储 器 每 比特 成 本 越 高 ， 并 且 容 量 越 小 。 构 ， 存 储 器 的 客 量 和 访问 
如 图 5-1 所 示 ， 较 快 的 存储 器 靠近 处 理 器 ， 下 面 是 较 慢 并 较为 “| 时 间 随 着 离 处 理 器 距离 的 
便宜 的 存储 器 。 其 目的 是 以 成 本 最 低 的 工艺 向 用 户 提供 尽 可 能 大 的 “| 增加 而 增加 
存储 容量 ， 同 时 提供 与 最 快 的 存储 器 相当 的 访问 速度 。 


速度 a 尺寸 ”价格 ( 美元 /位 ) ”当前 技术 


最 快 a 最 高 SRAM 


图 5-1 存储 器 的 基本 层次 结构 。 通 过 将 存储 系统 以 层次 结构 实现 ， 用 户 感觉 到 的 存储 器 具有 层次 结构 
最 底层 最 大 的 存储 容量 ， 而 访问 速度 和 最 快 的 存储 器 相当 。 在 很 多 个 人 移动 设备 中 ， 闪 存 (flash) 
已 经 代替 了 磁盘 ， 并 可 能 在 台式 计算 机 和 服务 器 的 存储 器 层次 中 引入 新 的 一 层 ( 见 5.2 节 ) 
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同样 ， 数 据 也 可 以 组 织 成 类 似 的 层次 化 结构 : 靠近 处 理 器 那 一 层 中 的 数据 是 那些 较 远 层 
次 中 的 子 集 ， 所 有 的 数据 都 被 存储 在 最 底层 中 。 我 们 依然 使 用 图 书馆 的 例子 来 进行 类 比 ， 书 
桌 上 的 书籍 是 你 所 在 图 书馆 藏书 的 一 个 子 集 ， 同 时 也 是 学 校 中 所 有 图 书馆 藏书 的 一 个 子 集 。 
并 且 ， 离 处 理 器 越 远 的 层次 访问 时 间 也 越 长 ， 就 像 我们 在 学 校 图 书馆 系统 中 可 能 遇 到 的 情况 
一 样 。 

存储 器 层次 结构 可 以 由 多 个 层次 构成 ， 但 是 数据 每 次 只 能 在 相 邻 的 两 个 层次 之 间 进 行 复 
制 ， 因 此 我 们 只 需 将 注意 力 集中 在 两 个 层次 上 。 高 层 的 存储 器 靠近 
处 理 器 ， 比 低层 存储 器 容量 小 但 访问 速度 更 快 ， 因 为 高 层 存 储 器 采 | 块 或 行 : 存储 器 层次 间 信 
用 的 工艺 成 本 更 高 。 如 图 5-2 所 示 ， 我 们 将 信息 最 小 单元 (不 管 是 否 | 名 传输 的 最 小 单元 。 
存在 于 两 级 层次 结构 中 ) 称 为 块 (block) 或 行 (line)， 在 图 书馆 的 类 
比 中 ,一 个 信息 块 就 是 一 本 书 。 





图 5-2 可 以 将 存储 器 层次 
结构 中 的 每 两 个 层次 
看 作 一 个 是 高 层 ,一 
个 是 低层 。 在 每 一 层 
中 ,信息 的 最 小 单元 
称 为 块 或 者 行 ， 无论 
其 是 否 存在 。 通 常 在 
层次 之 间 进 行 复制 
时 ， 按 整 块 进行 传输 


如 果 处 理 器 需要 的 数据 存放 在 高 层 存储 器 中 的 某 个 块 中 ， 则 称 
为 一 次 命中 (就 像 你 从 书桌 上 的 一 本 书 中 找到 所 需 的 信息 一 样 )。 如 
果 在 高 层 存 储 器 中 没有 找到 所 需 的 数据 ， 这 次 数据 请 求 则 称 为 一 次 
缺失 。 缺 失 后 将 访问 低层 存储 器 来 寻找 包含 所 需 数据 的 那 一 块 (如 
同 从 书桌 前 走 到 书架 旁 去 寻找 所 需 的 书籍 )。 命 中 率 〈 hit rate) 或 全 
中 比率 (hit ratio)， 是 指 在 高 层 存储 器 中 找到 数据 的 存储 访问 比例 ， 
通常 被 当成 存储 器 层次 结构 性 能 的 一 个 衡量 标准 。 缺 失 率 ( miss 
rate) (1 -命中 率 ) 则 是 指 在 高 层 存储 器 中 没有 找到 数据 的 存储 访问 
比例 。 

性 能 是 我 们 使 用 存储 器 层次 结构 的 主要 目的 ， 因 而 命中 时 间 | 命中 时 间 :访问 一 个 存储 
和 缺失 时 间 非 常 重要 。 命 中 时 间 ( hit time) 是 指 访问 存储 器 层次 结 | 器 层次 所 军委 的 时 间 ， 包 
构 中 的 高 层 存储 器 所 需要 的 时 间 ， 包 括 判断 当前 访问 是 命中 还 是 缺 | 才 天 攻 玫 站 
失 所 需 的 时 间 (相当 于 浏览 书桌 上 书籍 所 花费 的 时 间 )。 缺 失 代价 
(miss penalty) 是 指 将 相应 的 块 从 低层 存储 器 替换 到 高 层 存储 器 中 的 。 | 缺失 代价 : 将 相应 的 块 从 
时 间 ， 加 上 将 该 信息 块 传送 给 处 理 器 的 时 间 ( 即 从 书架 上 取 另 一 本 | 低层 存储 器 取 到 前 层 存储 
书 并 放 到 桌 上 的 时 间 )。 由 于 较 高 层 容量 较 小 并 且 使 用 更 快 的 存储 器 人 Se 
部 件 ， 命 中 时 间 要 比 访问 存储 器 层次 中 下 一 层 的 时 间 (这 也 是 缺失 | 兰 站 所 决 禄 入 发 生 续 失 的 
代价 的 主要 组 成 部 分 ) 少 得 多 。( 同 样 ， 查 找 书桌 上 书籍 的 时 间 要 比 。 | 禁 储 层 ， 以 及 将 信息 块 伟 
站 起 来 到 书架 前 查找 一 本 新 书 所 需 的 时 间 少 得 多 。) 送 给 请 求 者 的 时 间 。 

















命中 率 : 在 一 个 存储 器 层 
次 中 找到 所 需 数据 的 存储 
访问 比例 。 





缺失 率 : 在 一 个 存储 器 层 
次 中 没有 找到 所 需 数据 的 
存储 访问 比例 。 
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在 本 章 中 我 们 将 看 到 ， 用 来 构建 存储 器 系统 的 这 些 概念 也 影响 了 计算 机 的 许多 其 他 方 
面 ， 包 括 操作 系统 如 何 管理 存储 器 和 IO， 编译 器 如 何 产生 代码 ， 甚 至 应 用 程序 如 何 使 用 计 
算 机 。 当 然 ， 由 于 所 有 程序 都 要 花费 大 量 时 间 访 问 存储 器 ， 因 而 存储 系统 必然 成 为 决定 机 器 
性 能 的 一 个 主要 指标 。 利 用 存储 器 层次 结构 来 达到 性 能 的 提升 ， 意 味 着 在 过 去 程序 员 可 以 把 
存储 器 看 成 一 个 线性 的 随机 访问 存储 设备 ， 而 现在 必须 理解 存储 器 层次 结构 才能 获得 良好 的 
性 能 。 稍 后 的 例子 中 我 们 将 展示 这 种 理解 的 重要 性 ， 如 图 5-18 和 5.14 节 将 展示 如 何 使 矩阵 
乘法 性 能 加 倍 。 

由 于 存储 系统 对 性 能 至 关 重 要 ， 计 算 机 设计 人 员 在 这 些 系统 上 花费 了 大 量 精 力 ， 并 开发 
了 复杂 的 机 制 来 提高 存储 系统 的 性 能 。 本 章 讨 论 了 主要 的 概念 性 观点 ， 为 了 不 至 于 使 篇 幅 过 
长 和 使 内 容 太 复杂 ， 我 们 对 许多 概念 进行 了 简化 和 抽象 。( 本 章 中 的 硬件 模型 由 作者 提供 ， 并 
不 代表 是 ARM 支持 的 体系 结构 。) 

泗 滤 ;程序 不 仅 表现 出 时 间 局 部 性 ， 即 重复 使 用 最 近 被 访问 的 数据 项 的 趋势 ， 同 时 也 表 
现 出 了 空间 局 部 性 ， 即 访问 与 最 近 被 访问 过 的 数据 项 地 址 空间 相近 的 数据 项 的 趋势 。 存 储 器 
层次 结构 通过 将 最 近 访 问 的 数据 项 保存 在 更 靠近 处 理 器 的 存储 器 层次 中 来 利用 时 间 局 部 性 。 
而 对 空间 局 部 性 的 利用 ， 则 通过 将 存储 器 中 包含 多 个 相 邻 字 的 块 移动 到 上 层 存 储 器 中 实现 。 

图 5-3 表明 ， 在 存储 器 层次 结构 中 ， 离 处 理 器 越 近 的 层次 容量 越 小 ， 速 度 越 快 。 因 此 
在 最 高 层 命中 的 访 存 能 很 快 被 处 理 。 而 缺失 需要 访问 低层 的 存储 器 ， 容 量 大 但 速度 慢 。 如 果 
命中 率 足够 高 ， 存 储 器 层次 结构 的 有 效 访问 时 间接 近 于 最 高 层 (最 快 ) 的 访 存 时 间 ， 同 时 容 
量 接 近 于 最 底层 (容量 最 大 ) 的 容量 大 小 。 





SY 图 5-3 该 图 表明 在 存储 器 层次 结构 中 ， 
存储 器 容量 随 其 与 处 理 器 距离 的 
增加 而 增加 。 当 采用 合适 的 操作 

Za 机 制 时 ， 这 种 结构 允许 处 理 器 具 
drt lee 有 主要 由 第 一 个 存储 层 决定 的 访 


距离 的 增加 而 增加 

存储 器 层次 / wa \ 存 时 间 ， 并 具有 第 层 的 存储 容 
井 构 由 的 用 量 。 本 章 的 主题 就 是 要 实现 这 种 
结构 。 尽 管 本 地 磁盘 一 般 位 于 存 
储 器 层次 结构 的 最 底层 ， 但 是 一 
此 系统 会 使 用 磁带 或 者 局 域 网 内 
的 文件 服务 器 作为 层次 结构 的 下 
每 一 层 的 存储 器 容量 一 层 


在 很 多 系统 中 ， 存 储 器 是 一 个 真实 的 层次 结构 ， 这 意味 着 数据 若 要 在 第 i 层 存 在 ， 那 么 
必须 在 第 i+ 1 层 也 存在 。 
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5.2 存储 器 技术 


目前 ， 存 储 器 层次 结构 中 主要 使 用 了 四 种 技术 。 主 存储 器 由 DRAM (动态 随机 存 取 存储 
器 ) 实现 ， 而 靠近 处 理 器 的 层次 ( cache) 使 用 SRAM (静态 随机 存 取 存储 器 )。DRAM 每 比 
特 成 本 要 低 于 SRAM， 但 是 速度 比 SRAM 慢 。 价 格 的 差异 源 于 DRAM 每 比特 占用 的 存储 空 
间 较 少 ， 因 此 对 于 等 量 的 硅 ，DRAM 的 容量 更 大 。 速 度 的 差异 则 由 多 种 因素 造成 ， 附 录 A 
的 A.9 节 对 此 进行 了 描述 。 第 三 种 技术 是 闪存 ， 这 种 非 易 失 存储 器 用 作 个 人 移动 设备 中 的 二 
级 存储 器 。 第 四 种 技术 是 磁盘 ， 用 于 服务 器 中 容量 最 大 但 速度 最 慢 的 一 层 。 这 四 种 技术 的 访 
问 时 间 和 每 比特 成 本 变化 很 大 ， 下 表 给 出 了 2012 年 的 典型 数据 。 





















SRAM 半 导体 存储 器 0.5~25 5 

DRAM 半 导体 存储 器 50~70 10~20 

闪存 半导体 存储 器 5000~50000 0.75~ 1.00 
磁盘 5 000 000 - 20 000 000 0.05 ~ 0.10 

















本 节 的 剩余 部 分 将 对 每 种 存储 技术 进行 描述 。 


5.2.1 SRAM 技术 


SRAM 是 一 种 简单 的 集成 电路 ， 其 存储 阵列 通常 只 有 一 个 访问 端口 ， 提 供 读 或 写 。 虽 然 
读 和 写 的 访问 时 间 可 能 不 同 ,但 SRAM 对 任何 数据 访问 时 间 都 是 固定 的 。 

SRAM 不 需要 刷新 ， 因 此 其 访问 时 间 与 周期 时 间 非 常 相近 。SRAM 每 位 通常 采用 6 一 8 
个 晶体 管 以 防止 读 操作 时 损坏 信息 。 在 空闲 模式 下 ，SRAM 只 需要 最 小 的 功率 来 保持 电荷 。 

过 去 ， 大 多 数 PC 和 服务 器 系统 中 通常 使 用 独立 的 SRAM 芯片 实现 一 级 、 二 级 甚至 三 
级 cache。 而 如 今 ， 由 于 贞 儿 是 铬 的 推动 ， 各 级 cache 都 集成 在 处 理 器 芯片 中 ， 因 此 独立 的 
SRAM 芯片 几乎 在 市 场 上 消失 了 。 


5.2.2 DRAM 技术 


只 要 持续 供电 ，SRAM 中 的 数值 就 可 以 一 直 保持 。 而 在 动态 RAM ( DRAM) 中 ,存储 
单元 中 的 值 以 电容 中 电荷 的 方式 存储 。DRAM 中 使 用 一 个 晶体 管 对 存储 的 电荷 进行 访问 ， 
以 实现 对 保存 的 电荷 的 读 取 或 写 人 。 因 为 DRAM 每 存储 位 只 使 用 一 个 晶体 管 ， 所 以 相对 
SRAM，DRAM 每 位 密度 更 高 且 价 格 更 便宜 。 由 于 DRAM 在 电容 上 保存 电荷 ， 因 此 不 能 长 
久 地 保持 数据 ， 必 须 周期 性 地 刷新 。 这 就 是 与 SRAM 单元 的 静态 存储 相 比 ， 该 存储 结构 被 
称 为 动态 的 原因 。 

对 DRAM 单元 进行 刷新 时 ， 只 需 读 出 其 内 容 然后 写 回 ， 电 荷 可 以 保持 几 微 秒 。 如 果 
DRAM 中 的 每 一 位 都 需要 单独 读 出 然后 写 回 ， 那 么 就 需要 持续 刷新 DRAM， 这 将 导致 没有 
时 间 可 用 于 正常 的 访问 操作 。 幸 运 的 是 ，DRAM 采用 了 一 种 两 级 译 码 结构 ， 允 许 以 一 个 读 周 
期 后 紧 跟 一 个 写 周期 的 方式 一 次 刷新 一 整 行 (一 行 单元 共用 一 个 字 线 )。 

图 5-4 给 出 了 DRAM 的 内 部 组 织 结构 ,图 5-5 给 出 了 DRAM 的 密度 、 成 本 、 访 问 时 间 
多 年 来 的 变化 情况 。 

行 组 织 结构 不 但 有 助 于 刷新 ， 还 有 助 于 性 能 的 提高 。 为 了 提高 性 能 ， DRAM 对 行进 行 
缓存 以 便 重复 访问 。 缓冲 区 与 SRAM 类 似 ， 在 下 一 行 被 访问 之 前 ， 可 通过 改变 地 址 来 访问 
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缓冲 区 中 的 任意 一 位 。 由 于 访问 该 行 中 数据 的 时 间 短 了 很 多 ， 因 此 极 大 地 减 小 了 数据 访问 时 
间 。 更 宽 的 芯片 也 可 以 增加 芯片 的 存储 带宽 。 当 一 行 数据 在 缓冲 区 中 时 ， 无 论 DRAM 的 宽 
度 是 多 少 (典型 情况 为 4、8 或 16 位 )， 都 可 以 通过 连续 地 址 传输 ， 或 者 通过 指定 要 传送 的 数 
据 块 及 其 在 缓冲 区 中 的 起 始 地 址 的 方式 进行 传输 。 


























column 
Rd/Wr 






























































Pre 
























































row 


图 5-4 DRAM 的 内 部 组 织 。 现 代 DRAM 以 bank (存储 块 ) 形式 组 织 ，DDR3 中 有 4 个 bank。 每 个 
bank 由 一 系列 行 组 成 。 发 送 一 条 Pre ( 预 充电 ) 命令 能 够 打开 或 者 关闭 一 个 bank。 行 地 址 使 用 
Act (激活 ) 发 送 ， 行 被 传送 到 一 个 缓冲 区 中 。 当 一 行 数据 在 缓冲 区 中 时 ， 无 论 DRAM 数据 宽 
度 是 多 少 (典型 情况 为 4、8 或 16 位 )， 痢 可 以 通过 连续 地 址 传输 ,或 者 通过 指定 要 传送 的 数据 
块 及 其 在 缓冲 区 中 的 起 始 地 址 的 方式 进行 传输 。 与 数据 块 的 传送 一 样 ， 每 条 命令 使 用 时 钟 进行 























































同步 
64 Kibibit 250 
闭 256 Kibibit 185 二 100 
国 | 1 Mebibit 135 | ”40 
1989 | 4Mebibit 110 Ee | 
1992 16 Mebibit 90 30 
1996 |64Mebibit | 10000 60 12 
1998 |128Mebibit| 4000 60 10 
2000 |256Mebibit| 1000 | 55 | 7 
2004 512 Mebibit 250 50 5 | 
2007 1Gibibt | 50 | 45 1.25 | 
2010 | 2Gibibtt mo al 40 | 于 
2012 4 Gibibit 1 | 35 | 0.8 











直到 1996 年 ，DRAM 芯片 容量 大 约 每 三 年 增加 为 原来 的 4 倍 ， 之 后 增长 速度 变 
得 非常 慢 。 访 问 时 间 的 改进 很 慢 , 但 是 仍然 在 持续 减少 。 虽然 价格 经 常 受 到 其 
他 诸如 可 用 性 和 需求 等 因素 的 影响 ,但 是 也 基本 上 按照 存储 密度 增加 的 速度 在 降 
低 。 每 Gibibit 的 价格 没有 按 通 货 膨胀 调整 


为 了 进一步 优化 与 处 理 器 的 接口 ，DRAM 增加 了 时 钟 ， 因 此 称 为 同步 ( synchronous ) 
DRAM, 或 SDRAM。SDARM 的 优势 在 于 使 用 时 钟 消除 了 存储 器 和 处 理 器 同步 的 时 间 -DRAM 
速度 上 的 优势 源 于 不 需要 额外 指定 地 址 位 以 突 发 方式 传送 数据 位 的 能 力 ， 由 时 钟 在 突 发 方式 
下 传输 连续 的 数据 位 。 最 快 的 版 本 称 为 双 倍 数据 速率 (Double Data Rate，DDR) SDRAM。 
该 名 称 表示 在 时 钟 的 上 升 沿 和 下 降 沿 都 可 以 传送 数据 ， 因 此 可 以 在 期 望 的 时 钟 频率 和 数据 宽 
度 的 基础 上 获得 双 倍 的 带宽 。 该 技术 的 最 新 版 本 是 DDR4。DDR4-3200 DRAM 每 秒 可 以 传 
输 3200 兆 次 ， 意 味 着 其 时 钟 频率 为 1600MHz。 


国 
只 
几 


大 答 早 和 高 速度 : 开发 疗 储 器 层 头 纤 欧 277 





维持 如 此 高 的 带宽 需要 在 DRAM 内 部 进行 精心 组 织 。 与 只 有 一 个 快速 行 缓冲 区 不 同 ， 
DRAM 内 部 可 以 组 织 成 对 多 个 bank 进行 读 或 写 操作 ， 各 个 bank 都 有 独立 的 行 缓冲 区 。 将 一 
个 地 址 发 送 给 多 个 bank 允许 对 它们 同时 进行 例如 ， 对 于 4 个 bank 而 言 ， 只 需 一 次 
访问 时 间 ， 然 后 以 轮转 (rotate) 方式 对 这 4 个 bank 进行 访问 以 提供 4 倍 的 带宽 。 这 种 轮转 
访问 机 制 称 为 地 址 交叉 (address interleaving) 

虽然 iPad ( 见 第 1 章 ) 之 类 的 个 人 移动 设备 使 用 独立 的 DRAM， 但 服务 器 的 存储 器 (内 
存 ) 通常 是 以 称 为 双 列 直 插 式 存储 模块 (Dual Inline Memory Module，DIMM) 的 小 电路 板 形 
式 售卖 ?, DIMM 通常 含有 4 ~ 16 块 DRAM 芯片 ， 并 针对 服务 器 系统 组 织 成 8 字 节 宽 。 使 用 
DDR4-3200 SDRAM 的 DIMM 每 秒 可 以 传送 8 x3200 = 25600 兆 字 节 。 这 类 DIMM 以 其 带 
宽 命 名 : PC25600。 虽 然 一 个 DIMM 可 以 有 如 此 多 的 DRAM 芯片 ， 但 仅 有 一 部 分 可 以 用 于 
特定 的 传输 ， 因 此 需要 一 个 术语 来 表示 DIMM 上 共享 公共 地 址 线 的 芯片 子 集 。 为 了 避免 与 
DRAM 内 部 的 行 和 bank 的 名 字 混 淆 ， 我 们 使 用 存储 器 rank (memory rank) 来 表示 DIMM 中 
的 一 个 芯片 子 集 

贱 艇 一 种 测试 cache 之 后 的 存储 器 系统 性 能 的 方法 是 使 用 流 基准 程序 (stream 
benchmark) [ McCalpin，1995 ]。 该 测试 集 测 试 长 向 量 操作 的 性 能 ， 没 有 时 间 局 部 性 ， 并 且 
访问 的 阵列 比 所 测试 的 计算 机 中 的 cache 要 大 















5.2.3 闪存 


闪存 是 一 种 电 可 擦 除 的 可 编程 只 读 存储 器 ( Elcctrically Erasablc Programmablc Rcad- 
Only Memory, EEPROM) 

不 同 于 磁盘 和 DRAM， 但 与 其 他 EEPROM 技术 类 似 ， 对 闪存 的 写 操作 会 使 存储 位 产 
生 损 耗 。 为 了 应 对 这 种 局 限 性 ， 很 多 闪存 产品 都 有 一 个 控制 器 ， 用 米 将 写 操作 从 已 经 写 人 
很 多 次 的 块 中 重 映射 到 写 人 次 数 较 少 的 块 中 ， 从 而 
使 写 操作 尽量 分 散 。 这 种 技术 称 为 损耗 均衡 ( wear 
leveling)。 采 用 损耗 均衡 技术 ， 个 人 移动 设备 很 难 超 
过 闪存 的 写 极限 。 虽 然 该 技术 降低 了 闪存 的 潜在 性 
能 ， 但 却 是 必需 的 ， 除 非 有 更 高 一 级 的 软件 来 监控 块 
磨损 。 通 过 将 生产 过 程 中 出 错 的 存储 单元 屏蔽 掉 ， 实 
现 损耗 均衡 的 闪存 控制 器 也 能 够 提高 闪存 的 成 品 率 。 





5.2.4 ”磁盘 存储 器 


如 图 5-6 所 示 ， 一 个 磁 质 硬盘 包含 一 组 圆 形 盘 
片 ， 绕 着 轴 心 每 分 钟 转动 5400 一 15 000 圈 。 人 金属 盘 
片 两 侧 均 被 磁性 记录 材料 覆盖 ， 类 似 于 磁带 和 录像 带 
采用 的 材料 。 为 了 对 硬盘 上 的 信息 进行 读 写 ， 盘 片 每 ”图 $-6 一 个 具有 10 个 盘面 和 读 写 头 的 





面 上 方 都 有 一 个 包含 小 型 电磁 线圈 的 读 写 磁头 。 整 个 磁盘 。 当 今 磁盘 的 直径 是 2.5 或 
驱动 器 被 永久 地 密封 起 来 以 控制 驱动 器 内 部 ， 从 而 使 3.5 英 寸 , 并 且 每 个 驱动 器 通常 
得 磁头 可 以 距离 驱动 器 表面 非常 近 有 1 或 2 个 盘 片 


日 ” 即 台式 机 和 笔记 本 中 常见 的 内 存 条 - 一 一 译 者 注 
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每 个 磁盘 的 表面 被 划分 为 同心 圆 盘 ， 称 为 磁道 ( track)。 每 | 组 成 磁盘 表面 的 同 
面 通常 有 成 千 上 万 条 磁道 。 每 条 磁道 被 划分 为 用 于 存储 信息 的 “| 心 国 中 的 任意 一 个 。 
肩 区 ( sector)， 每 条 磁道 有 几 千 个 户 区 。 每 个 肩 区 的 容量 通常 是 
512 ~ 4096 字 节 。 保 存在 磁 介 质 上 的 系列 信息 为 遍 区 号 、 空 阶 、 访 
肩 区 的 信息 (包含 纠 错 码 ( 见 5.5 节 ))、 空 险 、 下 一 扇 区 的 肩 区 号 ， 
等 等 

每 个 盘面 的 磁头 连 在 一 起 移动 ， 因 此 每 个 盘面 的 磁头 位 于 相同 
的 肩 区 。 术 请 柱 面 ( cylinder) e 表 示 在 某 点 上 磁头 下 方 所 有 盘面 上 的 | 本 
所 有 磁道 

为 了 访问 数据 ， 操 作 系统 必须 对 磁盘 进行 三 步 操作 。 第 一 步 是 将 磁头 移动 到 适当 的 磁道 
之 上 ， 称 为 寻 道 (scek)， 将 磁头 移动 到 目标 磁道 所 需 的 时 间 称 为 好 道 时 间 。 

磁盘 生产 商 在 产品 手册 中 会 给 出 最 小 、 最 大 以 及 平均 寻 道 时 间 。 最 小 和 最 大 寻 道 时 间 较 
容易 测量 ， 但 平均 寻 道 时 间 因 与 寻 道 距离 相关 而 有 不 同 的 测试 值 。 工 业界 计算 平均 寻 道 时 间 
的 方法 是 对 所 有 可 能 的 寻 道 时 间 取 平均 值 。 平 均 寻 道 时 间 通常 建议 为 3 ~ 13ms， 但 由 于 应 
用 程序 以 及 磁盘 访问 调度 策略 的 不 同 ， 及 对 磁盘 访问 的 局 部 性 ， 实 际 的 平均 寻 道 时 间 通 常 只 


扇 区 : 构成 磁盘 上 磁道 的 
多 个 段 中 的 一 段 ， 是 磁盘 
上 数据 读 写 的 最 小 单位 。 
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有 标 称 数 据 的 23% 一 33%。 这 种 局 部 性 的 产生 有 两 个 原因 ， 其 一 是 同一 文件 产生 的 连续 访 
问 ， 其 二 是 操作 系统 也 会 尽量 把 这 些 访问 调度 在 一 起 。 

一 旦 磁头 到 达 了 正确 的 磁道 ， 就 必须 等 待 要 访问 的 户 区 转动 | 训 轩 下， 元 二 记 E 轩 
到 读 写 头 下 面 。 该 等 待 时 间 称 为 旋转 延迟 (rotational latency 或 “| 读 写 头 下 方 所 需 的 时 间 。 
rotational delay)。 平 均 延 迟 通常 是 磁盘 转动 一 周 时 间 的 一 半 。 磁 盘 | 通常 假定 为 磁盘 转动 一 周 
转速 通常 为 5400 ~ 15 000 RPM。5400 RPM 对 应 的 平均 旋转 延迟 为 | 时间 的 一 半 。 


3 人 0.5 周 
平均 族 转 延迟 =-ORPNT= 








称 = 0.0056 秒 = 5.6 毫秒 


5400RPM/ (60 专 全 


磁盘 访问 的 最 后 一 部 分 是 传输 时 间 ， 即 传输 一 个 数据 块 所 需 的 时 间 。 传 输 时 间 是 扇 区 大 
小 、 旋 转速 度 以 及 磁道 记录 介质 密度 的 函数 。2012 年 时 传输 速率 在 每 秒 100 一 200MB 之 间 。 

大 多 数 磁 盘 控 制 器 都 有 一 个 保存 最 近 传输 鹿 区 数据 的 内 建 缓 存 ， 从 该 缓存 中 传输 数据 的 
速率 通常 更 高 ，2012 年 达到 每 秒 750MB (每 秒 6Gbit)。 

现在 ， 块 号 存放 在 哪里 已 不 再 直观 了 。 前 面 所 述 的 扇 区 -磁道 - 柱 面 模型 有 如 下 假定 : 
邻近 的 块 在 同一 磁道 上 ; 访问 同一 柱 面 上 的 块 时 间 较 少 ， 因 为 同一 柱 面 上 的 块 不 需要 寻 道 时 
间 ; 一 些 磁道 比 其 他 磁道 距 磁 头 更 近 。 变 化 的 原因 是 磁盘 接口 层次 的 提升 。 为 了 加 速 顺 序 
传输 ， 这 些 高 层 的 接口 将 磁盘 组 织 得 更 像 磁带 ， 而 不 像 随 机 访问 设备 。 在 单个 磁 面 上 ， 逻 辑 
块 以 蛇 纹 形式 排列 ， 尽 可 能 使 所 有 扇 区 以 相同 的 位 密度 记录 信息 ， 从 而 获得 最 好 的 性 能 。 因 
此 ， 顺 序 的 块 可 能 位 于 不 同 的 磁道 上 。 

总 的 来 说 ， 磁 盘 和 半导体 存储 器 技术 间 两 个 主要 的 差别 就 是 磁盘 的 访问 速度 较 慢 ， 因 为 
它们 是 机 械 器 件 一 一 闪存 比 磁 盘 快 1000 倍 ，DRAM 比 磁盘 快 100 000 倍 一 一 但 是 磁盘 用 适 
度 的 成 本 即 可 获得 很 大 的 存储 容量 ， 因 而 每 位 的 成 本 更 低 一 一 磁盘 便宜 10 ~ 100 倍 。 与 闪 
存 类 似 ， 磁 盘 是 非 易 失 的 ， 但 与 闪存 不 同 的 是 ， 磁 盘 不 存在 写 损耗 问题 。 然 而 ， 闪 存 更 加 结 
实 , 更 符合 个 人 移动 设备 的 需求 。 

日 ”所 有 盘面 上 半径 相同 的 磁道 构成 一 个 柱 面 。 一 译 者 注 
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5.3 cache 的 基本 原理 


在 图 书馆 例子 中 ， 书 桌 就 好 比 一 个 cache 一 一 一 个 存放 所 需 东西 ey 
cache : 一 个 隐藏 或 者 存储 

(书籍 ) 的 安全 场所 。 在 早期 的 商业 计算 机 中 ， cache 用 于 代表 处 理 | 未 西 的 安全 场所 。 
器 和 主 存 之 间 额 外 的 存储 器 层次 。 第 4 章 数据 通路 中 的 存储 器 可 以 | weasersNew Worid 
简单 地 被 cache 替代 。 现 在 ， 尽 管 这 仍然 是 cache 的 主要 用 途 ?, 但 该 “| 2 Ce” 
术语 也 用 来 指 代 任何 基于 局 部 性 原理 来 管理 的 存储 器 。cache 最 早出 | gaision, 1988 
现在 20 世纪 60 年 代 早 期 的 研究 型 计算 机 中 ， 后 期 被 应 用 于 商业 计 
算 机 。 目 前 生产 的 每 一 台 通用 计算 机 ， 从 服务 器 到 低 功 耗 嵌入 式 处 理 器 ， 都 含有 cache。 

本 节 中 ， 我 们 先 来 看 一 个 简单 的 cache， 处 理 器 每 次 请 求 一 个 字 ， 并 且 每 个 块 由 一 个 单 
独 的 字 组 成 (已 经 熟悉 cache 基本 原理 的 读者 可 以 跳 至 5.4 节 )。 图 5-7 展示 了 该 简单 cache 
在 请 求 数据 项 (该 数据 项 初始 不 在 cache 中 ) 前 后 的 状态 。 请 求 发 出 之 前 ，cache 中 保存 了 最 
近 所 访问 过 的 数据 项 Xi，Xa2，…，Xw-1， 而 处 理 器 请 求 一 个 不 在 cache 中 的 字 Xv。 该 请 求 将 
引起 一 次 失效 ， 然 后 X, 从 存储 器 中 到 到 cache 中 。 
































Xs 
al 访问 X, 之 前 b) 访问 X" 之 后 





图 5-7 访问 字 Xw 前 后 cache 中 的 内 容 ，X 初始 不 在 cache 中 。 该 访问 引起 了 一 
次 缺失 ， 并 强制 cache 从 存储 器 中 取出 X,， 并 将 X, 插入 cache 中 


观察 图 5-7， 有 两 个 问题 需要 解决 : 如 何 知道 一 个 数据 项 是 否 在 
cache 中 ? 如 果 在 cache 中 ， 如 何 找到 该 数据 项 ” 这 两 个 问题 的 答案 | 直 廊 稚 则 conn 站 
是 相关 的 。 如 果 每 个 字 都 只 能 放 在 cache 中 确定 的 位 置 ， 那 么 只 要 | 储 吕 地 二 长 忆 和 到 ache 
它 在 cache 中 ， 我 们 就 能 直接 找到 它 。 在 cache 中 为 主 存 中 每 个 字 分 | 中 的 一 个 确定 的 位 置 。 
配 一 个 位 置 的 最 简单 方法 就 是 根据 这 个 字 的 主 存 地 址 进行 分 配 ， 这 
种 cache 结构 称 为 直接 映射 ( direct mapped)， 即 每 个 存储 器 地 址 映射 到 cache 中 一 个 确定 的 
地 址 。 对 于 直接 映射 cache， 主 存 地 址 和 cache 位 置 之 间 的 映射 比较 简单 。 例 如 ， 几 乎 所 有 
的 直接 映射 cache 都 使 用 以 下 映射 方法 来 找到 一 个 块 : 

( 块 地 址 ) mod (cache 中 的 块 数 ) 

如 果 cache 中 的 块 数 是 2 的 蛤 ， 取 模 的 计算 就 很 简单 ， 只 需要 取 地 址 的 低 log2 ( 块 中 的 

cache 容量 ) 位 ?>。 因 此 ， 一 个 8 块 的 cache 使 用 块 地 址 的 最 低 三 位 (8 = 23)。 例 如 ， 图 5-8 中 





日 ” 即 处 理 器 和 主 存 之 间 的 存储 器 层次 。 一 一 译 者 注 
名 即 对 块 大 小 以 2 为 底 取 对 数 。 一 一 译 者 注 
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展示 了 一 个 直接 映射 的 8 个 字 的 cache 中 ,存储器 地 址 le (0000lwo) 到 29ie (11101wo) 如 
何 映射 到 cache 中 ln ( 001wo) 到 Sen ( 101mo) 的 位 置 。? 


一 二 二 图 5-8 具有 8 个 项 的 直接 映射 cache 中 ， 
主 存 地 址 0 一 31 映射 到 cache 中 的 
相应 位 置 。 由 于 cache 中 有 8 个 字 ， 
地 址 X 被 直接 映射 到 X mod 8， 即 
低 logx 8 六 3 位 被 用 作 cache 索引 。 
因此， 地 址 0000liwe、0100lwo、 
10001wo 和 11001wo 都 对 应 于 cache 
中 第 001w。 号 人 口 ， 而 地 址 00101wo、 
01101two。、10101two 和 11101wo 都 
对 应 于 cache 中 第 101wo 人 口 









































00001 00101 01001 01101 10001 10101 11001 11101 
memory 


由 于 cache 中 的 每 个 位 置 可 能 对 应 于 主 存 中 多 个 不 同 的 地 址 ， 那 么 我 们 如 何 确定 cache 
中 的 数据 项 是 否 是 所 请 求 的 字 呢 ? 也 就 是 说 ， 我 们 如 何 知 道 所 请 求 的 字 是 否 在 cache 中 ? 对 
于 该 问题 ， 我 们 可 以 在 cache 中 增加 一 组 标记 ( tag) 来 解决 。 标 记 中 包含 了 地 址 信息 ， 这 些 
地 址 信息 可 以 用 来 判断 cache 中 的 字 是 否 就 是 所 请 求 的 字 。 标 记 只 
需 包含 地 址 的 高 位 ， 也 就 是 没有 用 来 检索 cache 的 那些 位 。 例 如 ， | 标记 ;存储 器 层次 结构 使 
图 5-8 中 标记 位 只 需 使 用 五 位 地 址 中 的 高 两 位 ， 地 址 的 低 三 位 索引 | 用 的 表 中 的 一 个 字段 ， 包 
字段 则 用 来 选择 cache 中 的 块 。 按 照 定义 ，cache 块 中 任何 一 个 地 址 | 仿 了 地 址 信息 ， 这 些 地 址 
站 fe pi dh ks i 信息 可 以 用 来 判断 存储 器 
的 索引 字段 必定 是 该 块 的 块 号 ， 因 此 标记 位 可 以 省 略 宛 余 的 索引 位 。 | 层次 中 的 字 是 否 就 是 所 请 
我 们 还 需要 一 种 方法 来 识别 出 cache 块 中 没有 包含 有 效 信息 的 “| 未 的 字 . 
情况 。 例 如 ， 当 处 理 器 启动 时 ，cache 中 没有 有 用 数据 ， 标 记 字段 中 
的 值 没有 任何 意义 。 甚 至 在 执行 了 很 多 指令 后 ，cache 中 的 一 些 项 依 “| 有 效 位 ; li a 
然 为 室 ， 如 图 5-7 所 示 。 因 此 ， 在 cache 中 ， 这 些 项 的 标记 应 该 被 忽 | 站 让 让 全 全 各 
略 。 最 常用 的 方法 就 是 增加 一 个 有 效 位 (valid bit) 来 标识 一 个 cache | 数据 。 
项 是 否 含有 有 效 地 址 。 如 果 该 位 没有 被 设置 ， 则 块 匹 配 不 成 功 。 
本 节 剩余 部 分 将 重点 说 明 如 何在 cache 中 进行 读 。 通 常 来 说 ， 处 理 读 要 比 处 理 写 简单 一 
些 ， 因 为 读 操作 不 需要 改变 cache 中 的 内 容 。 在 探讨 了 读 操作 和 cache 缺失 如 何 处 理 的 基本 
原理 后 ， 我 们 将 考察 实际 计算 机 中 cache 的 设计 并 详细 讨论 这 些 cache 如 何 处 理 写 操作 。 
cache 可 能 是 二 思 想 最 重要 的 例子 。cache 依赖 于 局 部 性 原理 ， 以 期 在 存储 器 层 
次 结构 的 更 高 层 中 寻找 需要 的 数据 ， 并 上 且 提供 机 制 以 保证 当 预 测 错误 时 能 够 从 低层 的 存储 器 层 
次 中 找到 并 获取 正确 的 数据 。 现 代 计算 机 中 cache 预测 命中 率 通常 在 95% 之 上 ( 见 图 5-46 )。 


5.3.1 cache 访问 


下 面 是 对 容量 为 8 块 的 空 cache 进行 9 次 访问 的 一 个 序列 ， 包 括 每 次 访问 的 行为 。 
图 5-9 给 出 了 每 次 缺失 时 cache 内 容 的 变化 。 由 于 cache 中 有 8 个 块 ， 地 址 的 低 三 位 给 出 了 
块 号 。 


马 此 例 中 的 存储 器 地 址 应 为 字 地 址 或 块 (每 行 一 个 字 ) 地 址 。 一 一 译 者 注 
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22 10110w。 | 缺失 图 59b) | ae 110uw。 
26 | _11010w | 缺失 (图 59c] | (11010, mod 8) = 010w。 
“各 10110,, 命中 (10110w mod 8) = 110, 
| 26 11010。。 | 命中 | (ttol0w mod 8) = 010w 
16 10000。。 | 缺失 ( 图 5-9d ) (10000wmod 8)=000w。 | 
3 00011w。 缺失 ( 图 59e ) | 。 (00011、 mod = Ot 
-i 10000w。 | 命中 | (10000w。 mod 8) = 000w 
18 10010w。 | 缺失 ( 图 5-9f) (10010,,, mod 8) = 010w 
16 10000, 命中 | (10000,,, mod 8) = 000w 






































o00 | N N 
001 | N N 
010 | N N 
011 | N N 
100 | N N 
101 | N N 
110 | N 110 | Y 10wo Memory (10110wo) 
111 | N| 111 | N 








上 电 后 cache 的 初始 状态 





b) 处 理 地 址 ( 10110。 ) 





缺失 后 的 cache 状 态 
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Memory (10110wo) 





z|<|z|z|z|<|z|z 

















5) 处 理 地 址 ( 11010,w ) 


Index 


/ 





失 后 的 cache 状 态 


处 理 地 址 ( 10000, ) 


nev | me | owe | 


缺失 后 的 cache 状 态 


















































000 [| Y 10wo Memory (10000w) 000 TY 10mwo Memory (10000mw) | 
001 | N oot | N 上 

010 | Y Cv Memory (11010wo) 010 | Y 10wo Memory (10010two) 
011 | Y 00w Memory (00011wo) of | Y | 00w Memory (00011iwo) 
100 | N 100 | N | 

101 | N 308 | -| 

110 2 10wo Memory (10110wo) 110 | Memory (10110iwo) 
111 | N 111 | N| 








e) 处 理 地 址 { 00011, ) 缺失 后 的 cache 状 态 
图 5-9 每 次 请 求 缺失 后 cache 中 的 内 容 、 索 引 ( Index) 和 标记 ( Tag) 字段 (二 进 制 表示 )。cache 初 


始 为 空 ， 所 有 有 效 位 ( cache 中 的 V 位 ) 关闭 (N)。 处 理 器 请 求 以 下 地 址 : 
11010w。( 命 中 )、10000w。( 缺 失 )、0001lwo (缺失 )、 


11010wo (缺失 )、 
10000two (命中 )、 


中 的 字 的 完整 地 址 是 jx 8 + i， 
标记 为 10wo， 


S| Ol0wo, 


10110two( 命 中 )、 
10010two。 (缺失 ) 以 及 10000w。( 命 中 ) 


人 n) 处 理 地 址 ( 10010, ) 缺失 后 的 cache 状 态 


10110tw。 (缺失 )、 


这 些 图 给 出 了 每 次 缺失 处 理 后 cache 
中 的 内 容 。 当 地 址 10010w。 ( 18 ) 被 访问 时 ,地 址 11010tw。( 26 ) 对 应 的 项 就 要 被 替换 掉 ， 随 
后 再 访问 11010tw。 又 会 引起 缺失 。 标 记 字段 只 包含 地 址 的 高 位 部 分 。cache 块 六 标记 字段 为 了 


或 者 等 效 为 标记 字段 j 和 索引 i 的 级 联 。 例 如 ， 
对 应 地 址 10010wwo 


上 面 图 f 中 , 索 
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由 于 cache 初始 为 空 ， 第 一 次 访问 一 些 数据 时 将 产生 缺失 ， 图 5-9 对 每 次 存储 访问 进行 
了 描述 。 第 8 次 访问 将 会 对 cache 块 产生 冲突 请 求 。 地 址 18 ( 10010w。) 的 字 将 被 取 到 cache 
的 第 2 块 (010w。) 中 ,替换 已 存在 于 cache 第 2 块 (010w。) 中 地 址 为 26( 11010w。) 中 的 字 。 
这 种 行为 使 得 cache 利用 了 时 间 局 部 性 : 最 近 访问 过 的 字 替 换 掉 较 早 访问 过 的 字 。 

这 种 情况 就 好 比 要 从 书架 上 取 一 本 书 ， 而 书桌 上 已 经 没有 任何 地 方 可 以 放 这 本 书 了 ， 因 
此 原先 放 在 书桌 上 的 一 些 书 必须 被 放 回 书架 。 在 直接 映射 cache 中 ， 只 有 一 个 位 置 可 以 存放 
最 新 请 求 的 数据 项 ， 因 此 对 于 哪个 数据 项 被 蔡 换 也 只 有 一 种 选择 。 

对 每 个 可 能 的 地 址 ， 在 cache 中 进行 如 下 查找 : 地 址 的 低位 用 来 找到 cache 中 与 该 地 址 
匹配 的 唯一 项 。 图 5-10? 说 明了 地 址 如 何 划 分 : 

e 标记 字段 : 用 来 与 cache 中 标记 字段 的 值 进行 比较 。 

e cache 索引: 用 来 选择 块 。 


地 址 ( 显示 位 的 位 置 ) 
例 总 “和 福利“ 
Byte 
offset 




















图 5-10 对 于 该 cache， 地 址 的 低位 用 来 选择 由 数据 字 和 标记 组 成 的 一 个 cache 项 。 该 cache 有 1024 个 
字 ， 即 4KiB。 除 非特 殊 说 明 ， 本 章 假设 使 用 64 位 的 地 址 。cache 中 的 标记 与 地 址 高 位 相 比较 ， 
判断 cache 中 的 项 是 否 就 是 请 求 的 地 址 。 由 于 cache 有 2”( 1024 ) 个 字 ， 块 大 小 为 1 个 字 ， 索 
引 cache 需要 10 位 ， 剩 下 的 64 - 10 - 2 = 52 位 用 来 和 标记 相 比 较 。 如 果 标记 和 地 址 的 高 52 位 
相等 ， 并且 有 效 位 置 1， 那 么 请 求 在 cache 中 命中 ,请求 的 字 被 提供 给 处 理 器 。 和 否则 发 生 缺 失 


cache 块 的 索引 以 及 标记 唯一 确定 了 cache 块 中 所 包含 的 字 的 存储 ( 主 存 ) 地 址 。 由 于 索 


日 ” 原 书 此 图 为 地 址 为 32 位 的 情况 ， 此 处 已 进行 了 更 正 。 一 一 译 者 注 
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引 字段 用 来 在 cache 中 进行 查找 ， 并 且 普 位 的 字段 有 2" 种 值 ”， 因 此 直接 映射 cache 中 总 的 项 
数 必须 为 2 的 寡 。 由 于 字 是 以 4 字 节 的 倍数 对 齐 的 ， 每 个 地 址 的 最 低 两 位 指定 了 字 中 的 一 个 
字 节 。 因 此 ， 如 果 存 储 器 中 的 字 是 对 齐 的 ， 那 么 选择 块 中 的 一 个 字 时 ， 最 低 两 位 可 以 忽略 。 
本 章 假设 数据 在 存储 器 中 对 齐 存 放 ， 精 解 部 分 将 讨论 如 何 处 理 非 对 齐 的 cache 访问 。 

由 于 cache 不 仅 存储 数据 也 存储 标记 位 ， 因 此 一 个 cache 所 需 的 总 位 数 是 cache 大 小 和 地 
址 位 数 的 函数 。 上 述 块 的 大 小 为 1 个 字 (4 字 节 ), 但 通常 块 由 多 个 字 组 成 。 对 于 下 面 的 情况 : 

。 64 位 地 址 。 

。 直接 映射 cache。 

e cache 大 小 为 2" 个 块 ， 因 此 位 被 用 来 作为 索引 。 

。 块 大 小 为 2" 个 字 (2"*? 字 节 )， 因 此 m 位 用 来 查找 块 中 的 字 ， 两 位 用 作 字 节 地 址 。 
标记 字段 的 大 小 为 

64- (n+m+2) 
直接 映射 cache 的 总 位 数 为 
2"x ( 块 大 小 + 标记 字段 大 小 + 有 效 位 字段 大 小 ) 
由 于 块 大 小 为 2" 个 字 ( 2"* 位 )， 同 时 需要 1 位 有 效 位 ， 因 此 这 样 一 个 cache 的 位 数 是 
2"x (2"x32+(64-n-m-2)+1)=2"x (2"x32+63-n—-m) 

尽管 以 上 计算 是 实际 的 位 数 ， 但 通常 命名 cache 时 只 考虑 数据 的 大 小 而 不 考虑 标记 字段 和 有 
效 位 字段 的 大 小 。 因 此 ， 图 5-10 中 的 cache 称 为 一 个 4KiB 的 cache。 


| 例题 | cache 中 的 位 数 

一 个 直接 映射 的 cache 有 16KiB 的 数据 ， 块 大 小 为 4 个 字 ， 地 址 为 64 位 ， 那 么 该 cache 
总 共 需 要 多 少 位 ? 
| 答案 | 我 们 知道 16KiB 是 4096 ( 22) 个 字 ， 块 大 小 是 4 个 字 (22)， 那 么 就 有 1024 (2") 
个 块 。 每 个 块 有 4x 32 = 128 位 的 数据 , 加 上 64 - 10 - 2 - 2 位 的 标记 字段 ， 再 加 上 一 个 有 
效 位 ， 因 此 ， 总 的 cache 大 小 是 

2"°x (4x32+(64-10-2-2)+1)=20x179=179KiB 

即 16KiB 的 cache 总 共 需 要 22.4KiB 的 容量 。 该 cache 的 总 位 数 是 数据 存储 量 的 1.4 倍 。 一 * 





| 例题 | 将 一 个 地 址 映射 到 多 个 字 的 cache 块 中 昌 
考虑 一 个 cache， 有 64 个 块 ， 每 块 16 字 节 ， 那 么 字 节 地 址 1200 映射 到 cache 中 的 哪 
一 块 ? 
| 答案 | 根据 5.3 节 开始 提 到 的 公式 ， 块 由 下 面 的 公式 给 出 
( 块 地 址 ) mod (cache 中 的 块 数 ) 








其 中 块 地 址 为 
字 节 地 址 
每 其 字 节 数 
注意 ， 这 个 块 地 址 包含 了 所 有 在 
字 节 地 址 Nn 
每 关 字 书 数 愉 每 扶 字 节 数 


日 ” 原 书 中 为 2"， 应 为 笔 误 。 一 一 译 者 注 





402 








403 














405 








和 
字 节 地 址 站 
每 志 字 忆 数 X 每 块 字 节 数 + (每 块 字 节 数 -1) 
之 间 的 地 址 。 
因此 ， 由 于 每 个 块 有 16 字 节 ， 字 节 地 址 1200 对 应 的 块 地 址 为 
1200 
二 
16 

对 应 于 cache 中 的 块 号 ( 75 mod 64 ) = 11。 事实 上 ,地址 1200 和 1215 之 间 的 所 有 地 址 都 映 
射 到 这 一 块 。 . 





较 大 的 cache 块 能 更 好 地 开发 空间 局 部 性 以 降低 缺失 率 。 如 图 5-11 所 示 ， 增 加 块 大 小 通 
常会 使 缺失 率 下 降 。 而 当 块 大 小 在 cache 容量 中 所 占 比 例 增加 到 一 定 程度 时 ， 缺 失 率 也 随 之 
增加 。 因 为 此 时 cache 中 可 以 容纳 的 块 的 数量 变 得 很 少 ， 因 此 这 些 块 将 被 大 量 竞争 使 用 。 结 
果 ， 就 造成 一 个 块 中 的 数据 在 被 多 次 访问 之 前 就 被 替换 出 cache。 或 者 说 ， 对 于 一 个 太 大 的 
块 ， 块 中 字 之 间 的 空间 局 部 性 降低 了 -。 因此 ， 缺 失 率 降低 所 带 来 的 收益 也 会 相应 减少 。 





1 


块 大 小 
图 5-11 缺失 率 与 块 大 小 。 注 意 ， 如 果 块 大 小 相对 cache 容量 太 大 ， 缺 失 率 实际 上 是 上 升 的 。 每 条 曲 


线 代表 不 同 容量 的 cache (图 中 没有 考虑 相 联 度 ， 稍 后 讨论 )。 不 幸 的 是 ， 如 果 包 括 块 大 小 ， 
那么 SPEC CPU 2000 追踪 信息 将 花费 太 长 的 时 间 ， 因 此 这 些 数据 都 是 基于 SPEC92 获得 的 


仅仅 增加 块 大 小 所 带 来 的 一 个 更 加 严重 的 后 果 是 缺失 成 本 的 增加 。 缺 失 代 价 由 从 存储 器 
层次 中 较 低 的 下 一 级 中 取出 块 并 存放 至 cache 中 所 花费 的 时 间 决 定 。 取 出 块 的 时 间 可 以 分 为 
两 部 分 : 第 一 个 字 的 延迟 时 间 以 及 块 中 剩余 部 分 的 传输 时 间 。 显然 ， 除 非 改 变 存储 系统 ， 否 
则 传输 时 间 (也 就 是 缺失 代价 ) 将 随 着 块 大 小 的 增 大 而 增加 。 此 外 ， 块 变 大 时 ,缺失 率 的 改 
善 也 开始 降低 。 结 果 是 当 块 过 大 时 ,缺失 代价 的 增长 将 掩盖 缺失 率 的 降低 ， 因 此 cache 的 性 
能 也 随 之 降低 。 当 然 ， 如 果 把 存储 器 设计 得 能 更 有 效 地 传输 较 大 的 块 ， 我 们 就 能 增加 块 的 大 
小 并 在 cache 性 能 方面 获得 进一步 改进 。 这 一 点 我 们 将 在 下 一 节 讨论 。 

上 酮 狠 尽 管 很 难 减少 大 块 缺失 代价 中 的 长 延迟 ， 但 我 们 可 以 隆 藏 一 些 传输 时 间 来 有 效 降 
低 缺 失 代价 。 最 简单 的 方法 是 提前 重启 (early restart)， 即 块 中 所 需 字 一 旦 返回 就 马上 继续 执 
行 ， 而 不 需要 等 到 整个 块 都 传 过 来 之 后 再 执行 。 很 多 处 理 器 利用 这 种 技术 进行 指令 访问 ， 效 
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果 很 好 。 大 部 分 指令 访问 都 具有 顺序 性 ， 因 此 如 果 存 储 系统 每 个 时 钟 周 期 都 能 传送 一 个 字 ， 
只 要 存储 系统 能 及 时 传递 新 的 指令 字 ， 那 么 当 所 请 求 的 字 返 回 时 ， 处 理 器 就 可 以 重新 开始 操 
作 。 这 种 技术 对 于 数据 cache 通常 效率 要 低 一 些 ， 因 为 数据 cache 可 能 以 一 种 不 太 可 预测 的 
方式 请 求 字 ， 并 且 在 传输 结束 前 处 理 器 请 求 另 一 块 中 另 一 个 字 的 可 能 性 也 很 高 。 如 果 数 据 传 
输 正在 进行 时 处 理 器 无 法 访问 数据 cache， 那 么 必然 产生 阻塞 。 

另 一 种 更 复杂 的 机 制 是 通过 组 织 存储 器 ， 使 得 被 请 求 的 字 先 从 存储 器 传 到 cache 中 。 然 
后 再 传送 该 块 的 剩余 部 分 ， 从 所 请 求 字 的 下 一 个 地 址 开始 传送 ， 再 回 到 块 的 开始 。 这 种 技术 
被 称 为 请 求 字 优先 (requested word first) 或 者 关键 字 优 先 (critical word first)， 比 提前 重启 要 
快 一 些 ， 但 与 提前 重启 一 样 ， 会 因为 同样 的 问题 而 受到 限制 。 


5.3.2 ”cache 缺失 处 理 


在 研究 一 个 真实 系统 中 的 cache 之 前 ,我 们 先 来 看 一 下 控制 单元 | cache 缺 失 ， 由 于 数据 不 
(5.9 节 将 详细 介绍 cache 控制 器 ) 如 何 处 理 cache 缺失 (cache miss)。 | 在 cache 中 而 导致 被 请 求 
控制 单元 必须 能 检测 到 缺失 ， 并 从 主 存 (或 者 较 低 一 级 的 cache) 中 | 的 数据 不 能 满足 。 
取出 所 需 的 数据 来 处 理 缺 失 。 如 果 在 cache 中 命中 ， 计 算 机 继续 使 用 
该 数据 ， 就 好 像 什么 都 没有 发 生 过 。 

处 理 器 的 控制 器 不 需要 太 多 的 修改 就 可 以 处 理 命中 ,但 是 处 理 缺 失 则 需要 增加 一 些 额 外 
的 工作 。cache 缺失 处 理由 两 部 分 协作 完成 : 处 理 器 控制 单元 ， 以 及 一 个 能 初始 化 主 存 访问 
并 重新 填充 cache 的 独立 控制 器 。cache 缺失 会 引起 流水 线 阻塞 ( 见 第 4 章 )， 这 与 异常 或 中 
断 不 同 ， 异 常 或 中 断 发 生 时 需要 保存 所 有 寄存 器 的 状态 。 发 生 cache 缺失 时 ,我 们 可 以 阻塞 
整个 处 理 器 ， 冻 结 临时 寄存 器 和 程序 员 可 见 寄存 器 中 的 内 容 ， 等 待 主 存 操作 完成 。 而 更 为 复 
杂 的 乱 序 执行 处 理 器 可 以 在 等 待 cache 缺失 处 理 的 同时 ， 依 然 允许 指令 的 执行 。 但 是 ， 本 节 
假设 顺序 执行 处 理 器 在 cache 缺失 时 产生 阻塞 。 

我 们 再 进一步 讨论 一 下 指令 发 生 缺 失 时 将 如 何 处理 ， 同 样 的 方法 略 加 修改 便 可 以 用 来 处 
理 数 据 缺失 。 如 果 指 令 访问 引起 一 次 缺失 ， 那 么 指令 寄存 器 中 的 内 容 无 效 。 为 了 将 正确 的 指 
令 取 回 cache， 我 们 必须 通知 存储 器 层次 结构 中 的 较 低 层次 执行 一 次 读 操作 。 由 于 在 执行 的 
第 一 个 时 钟 周期 中 程序 计数 器 已 经 递增 ， 因 此 产生 指令 cache 缺失 的 那 条 指令 的 地 址 等 于 程 
序 计数 器 中 的 值 减 去 4。 当 地 址 产生 时 ， 我 们 需要 通知 主 存 执行 一 次 读 操 作 ， 并 且 等 待 存储 
器 响应 (访问 主 存 可 能 需要 多 个 时 钟 周期 )， 随 后 把 取 回 的 包含 所 需 指令 的 字 写 人 cache。 

现在 我 们 可 以 定义 指令 cache 缺失 的 处 理 步 又 : 

1, 将 程序 计数 器 PC 的 原始 值 送 到 存储 器 中 。 

2. 通知 主 存 执行 一 次 读 操 作 ， 并 等 待 主 存 完成 访问 。 

3, 写 cache 项 ,将 从 主 存 取 回 的 数据 写 人 cache 中 存放 数据 的 部 分 ， 并 将 地 址 的 高 位 
(从 ALU 中 获得 ) 写 人 标记 字段 ,设置 有 效 位 ( 置 1 )。 

4. 重启 指令 执行 第 一 步 ， 重 新 取 指 ， 这 次 该 指令 在 cache 中 命中 。 

数据 访问 时 对 cache 的 控制 基本 相同 : 发 生 缺 失 时 ， 处 理 器 产生 阻塞 ， 直 到 存储 器 返回 
数据 并 响应 。 


5.3.3” 写 操作 处 理 
写 操作 略微 不 同 。 假 设 有 一 个 store 指令 , 我 们 只 将 数据 写 人 数据 cache (而 不 改变 主 
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存 的 内 容 ); 那么 在 写 人 cache 之 后 ， 主 存 与 cache 相应 位 置 中 的 值 | 写 直 达 : 写 操作 总 是 同时 
将 不 同 。 在 这 种 情况 下 ，cache 和 主 存 被 认为 不 一 致 (inconsistent)。 | 更 新 cache 和 下 一 存储 器 
保持 主 存 和 cache 一 致 性 最 简单 的 方法 是 将 数据 同时 写 人 主 存 和 | 全， 四 作 一 考 的 下 拓 
cache 中 ， 这 种 方法 称 为 写 直 达 (write-through ) 。 

写 操作 要 考虑 的 另 一 个 关键 是 写 缺 失 时 将 发 生 什 么 情况 。 我 们 首先 从 主 存 中 取出 包含 所 
需 字 的 块 。 块 被 取 回 并 存 和 人 cache 后 ,我 们 就 可 以 将 引起 缺失 的 字 重 新 写 入 cache 中 。 同 时 ， 
我 们 使 用 全 地 址 将 该 字 写 人 主 存 。 

尽管 这 种 方案 能 简单 地 处 理 写 操作 ， 但 不 能 提供 良好 的 性 能 。 使 用 写 直 达 的 机 制 ， 每 次 
写 操作 都 要 把 数据 写 人 主 存 中 。 这 些 写 操作 将 花费 很 长 的 时 间 ， 可 能 至 少 100 个 处 理 器 时 钟 
周期 ,并 且 大 大 降低 处 理 器 的 速度 。 例 如 ,假设 10% 的 指令 是 store 指令 ， 没 有 cache 缺失 
的 情况 下 CPI 为 1.0， 每 次 写 操 作 要 额外 花费 100 个 周期 ,将 导致 CPI 变 为 1.0 + 100 x 10% = 
11， 性 能 降低 10 倍 多 。 

这 个 问题 的 一 种 解决 方法 是 采用 写 缓冲 ( write buffer)， 写 缓冲 二 二 二 水 二 着 惠 放 区 
区 用 来 存储 等 待 被 写 和 人 主 存 的 数据 。 当 把 数据 写 人 cache 和 写 缓冲 | 在 数据 的 队列 。 
区 后 ， 处 理 器 可 以 继续 执行 。 当 写 主 存 完 成 后 ， 写 缓冲 区 中 的 数据 
项 被 释放 。 如 果 处 理 器 执行 到 一 个 写 操作 时 写 缓冲 区 已 满 ， 那 么 处 理 器 必须 阻塞 直到 写 缓冲 
区 中 有 一 个 位 置 空 出 来 。 当 然 ， 如 果 存 储 器 完成 写 操作 的 速度 比 处 理 器 产生 写 操作 的 速度 
慢 ， 那 么 再 多 的 缓冲 区 也 没有 用 ， 因 为 产生 写 操作 比 存储 系统 能 接收 的 还 要 快 。 

写 操作 产生 的 速度 也 可 能 比 存储 器 能 够 接收 的 速度 慢 ， 尽 管 这 样 ， 仍 有 可 能 发 生 阻塞 。 
当 写 操作 以 突 发 模式 产生 时 ， 就 可 能 发 生 这 种 情况 。 为 了 减少 这 种 阻塞 的 发 生 ， 处 理 器 通常 
要 增加 写 缓冲 区 的 深度 。 

除了 写 直 达 ， 另 一 种 可 供 选择 的 方法 为 写 回 ( write-back)。 在 | 写 回 : 一 种 写 操作 的 处 理 
写 回 机 制 中 ， 当 发 生 写 操作 时 ， 新 值 仅 被 写 人 cache 块 中 。 只 有 当 ”| 机 制 ， 当 发 生 写 操作 时 ， 
修改 过 的 块 被 替换 时 才 需 要 写 到 较 低层 的 存储 器 结构 中 。 写 回 机 制 | 改作 斌 生生 人 oo 全 
可 以 提高 系统 的 性 能 ， 尤 其 是 当 处 理 器 产生 写 操作 的 速度 和 主 存 处 ”| 时 放生 到 权 公 县 的 条 储 
理 写 操作 的 速度 一 样 快 甚至 更 快 时 ; 但 是 ， 写 回 机 制 的 实现 也 比 写 | 物 中 。 
直达 复杂 得 多 。 

在 本 节 的 剩余 部 分 ， 我 们 介绍 实际 处 理 器 中 的 cache， 探 讨 这 些 cache 如 何 处 理 读 和 写 。 
5.8 节 将 更 详细 地 描述 写 操作 的 处 理 。 

了 睛 病 写 操作 将 读 操 作 中 不 存在 的 一 些 复杂 情况 引入 了 cache。 这 里 讨论 其 中 两 种 : 写 
缺失 时 的 策略 以 及 使 用 写 回 机 制 的 cache 中 写 操作 的 有 效 实现 。 

考虑 在 写 直达 cache 中 的 缺失 ， 最 常 使 用 的 策略 是 在 cache 中 分 配 一 个 块 ， 称 为 写 分 配 (write 
allocate)。 该 块 从 主 存 中 取出 ， 并 且 该 块 中 的 恰当 区 域 被 重 写 。 男 一 种 策略 则 是 更 新 主 存 中 块 的 部 
分 ,但 不 写 入 cache 中 ， 这 种 方法 称 为 写 不 分 配 (no write allocate)。 这 种 机 制 产生 的 原因 是 ， 有 时 
程序 会 写 整个 数据 块 ， 就 像 有 时 操作 系统 会 将 存储 器 中 的 一 页 全 部 填 零 一 样 。 在 这 种 情况 下 ， 与 
初始 的 写 缺 失 相 关 的 取 数据 就 不 必要 了 。 一 些 计算 机 允许 基于 每 一 页 来 更 改写 分 配 策略 。 

实际 上 ， 在 使 用 写 回 策略 的 cache 中 实现 有 效 的 写 要 比 在 写 直达 cache 中 实现 复杂 得 多 。 
写 直达 的 cache 可 以 将 数据 写 入 cache 并 且 读 标记 ， 如 果 标 记 不 匹配 ， 就 发 生 缺 失 。 由 于 cache 
采用 写 直达 策略 ， 重 写 cache 中 的 块 不 会 有 危险 ， 因 为 主 存 中 存储 了 正确 的 值 。 在 写 回 cache 


旺 ” 即 完整 的 主 存 地 址 。 一 一 译 者 注 
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中 ， 如 果 cache 中 的 数据 被 修改 过 并 产生 了 cache 缺失 ， 那 么 我 们 必须 先 将 块 写 回 主 存 中 。 如 果 
在 确定 store 是 否 在 cache 中 命中 (在 写 直 达 的 cache 中 可 以 知道 ) 之 前 就 简单 地 根据 store 指令 
重 写 块 ， 那 么 块 中 的 内 容 就 会 被 破坏 掉 ， 而 这 些 内 容 并 没有 在 存储 器 层次 结构 的 较 低 层 中 备份 。 

在 写 回 cache 中 ， 由 于 无 法 重 写 块 ，store 操作 需要 两 个 周期 (一 个 周期 用 来 检查 命中 情 
况 ， 下 一 个 周期 真正 执行 写 操作 )， 或 者 需要 一 个 写 缓冲 区 来 保存 数据 一 一 通过 流水 线 有 效 地 
使 存储 操作 只 花费 一 个 周期 。 如 果 使 用 存储 缓冲 区 ， 处 理 器 在 正常 的 cache 访问 周期 内 查找 
cache 并 把 数据 放 入 存储 缓冲 区 中 。 如 果 cache 命中 ， 在 下 一 个 未 使 用 的 cache 访问 周期 中 ， 
新 数据 被 从 存储 缓冲 区 写 入 cache 中 。 

相 比 较 而 言 ， 在 写 直达 cache 中 ， 写 操作 总 是 可 以 在 一 个 周期 内 完成 。 我 们 读 标记 位 ， 
并 且 写 被 选 块 的 数据 部 分 。 如 果 标 记 与 被 写 块 的 地 址 相 匹配 ， 处 理 器 可 以 继续 正常 执行 ， 
为 正确 的 块 已 经 更 新 过 了 。 如 果 标 记 与 被 写 块 的 地 址 不 匹配 ， 处 理 器 产生 一 个 写 缺 失 并 将 与 
该 地 址 对 应 的 块 的 剩余 部 分 取出 。 

很 多 采用 写 回 机 制 的 cache 也 使 用 写 缓 冲 区 ， 用 于 在 发 生 缺 失 并 替换 一 个 被 修改 的 块 
时 降低 缺失 代价 。 在 这 种 情况 下 ,被 修改 的 块 被 移入 与 cache 相 联 的 写 回 缓冲 区 ( write-back 
buffer)， 同 时 从 主 存 中 读 出 所 需要 的 块 。 随 后 ， 写 回 缓冲 区 中 的 数据 被 写 回 主 存 。 如 果 下 一 
次 缺失 没有 立刻 发 生 ， 那 么 当 一 个 脏 块 必须 被 替换 时 ， 这 种 方法 可 以 将 缺失 代价 减 半 。 


5.3.4 ”cache 实例 : Intrinsity FastMATH 处 理 器 


Intrinsity FastMATH 是 一 个 的 嵌入 式微 处 理 器 ， 采 用 MIPS 架构 和 简单 的 cache 实现 ， 
本 章 最 后 ， 我 们 将 了 解 ARM 和 Intel 微 处 理 器 中 更 为 复杂 的 cache 设计 ， 但 是 出 于 教学 的 目 
的 ， 我们 先 从 这 个 简单 的 实例 开始 。 图 5-12 给 出 了 Intrinsity FastMATH 数据 cache 的 结构 。 
注意 该 计算 机 的 地 址 大 小 为 32 位 ， 而 非 本 书 其 他 部 分 的 64 位 。 

该 处 理 器 采用 12 级 流水 线 。 以 峰值 速度 执行 时 ， 处 理 器 每 个 时 钟 周期 可 以 请 求 一 个 指 
令 字 和 一 个 数据 字 。 为 了 满足 不 阻塞 流水 线 的 需求 ， 使 用 了 分 离 的 指令 cache 和 数据 cache。 
每 个 cache 容量 为 16KiB ， 即 4096 个 字 ， 每 块 有 16 个 字 。 

对 cache 的 读 请 求 简单 直接 。 由 于 使 用 了 分 离 的 指令 cache 和 数据 cache， 读 写 每 个 
cache 都 需要 独立 的 控制 信号 ( 记 住 当 发 生 缺 失 时 ， 需 要 更 新 指令 cache)。 因 此 ， 对 任何 一 
个 cache 的 读 请 求 步骤 如 下 : 

1. 将 地 址 送 到 适当 的 cache 中 。 该 地 址 来 自 程序 计数 器 (对 于 指令 )， 或 者 来 自 ALU (对 
于 数据 )。 

2. 如 果 cache 发 出 命中 信号 ， 请 求 的 字 就 出 现在 数据 线 上 。 由 于 在 请 求 的 块 中 有 16 个 
字 ， 因 此 需要 选择 正确 的 那个 字 。 块 索引 字段 用 来 控制 多 路 选择 器 (如 图 5-12 底部 所 示 )， 
从 检索 到 的 块 中 选择 16 个 字 中 的 某 个 字 。 

3. 如 果 cache 发 出 缺失 信号 ， 我 们 把 地 址 送 到 主 存 。 当 主 存 返 回 数 据 时 ， 把 该 数据 写 和 人 
cache 后 再 读 出 以 满足 请 求 。 

对 于 写 操 作 ，Intrinsity FastMATH 同时 提供 写 直达 和 写 回 机 制 ， 由 操作 系统 来 决定 对 一 
个 应 用 使 用 哪 种 机 制 。 此 外 ，Intrinsity FastMATH 还 有 一 个 只 包含 一 项 的 写 缓冲 区 。 

Intrinsity FastMATH 所 采用 的 cache 结构 的 缺失 率 如 何 ? 图 5-13 给 出 了 指令 cache 和 数 
据 cache 的 缺失 率 。 综 合 缺 失 率 是 在 考虑 了 指令 和 数据 的 不 同 访问 频率 后 每 个 程序 每 次 访问 
的 实际 缺失 率 。 
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地 址 ( 显示 位 的 位 置 ) 
31 … 1413…65…210 


Block offset 





















































图 5-12 ”Intrinsity FastMATH 处 理 器 中 16KiB 的 cache 包含 256 块 ， 每 块 16 个 字 。 注 意 该 计算 机 的 地 
址 大 小 只 有 32 位 。 标 记 字段 18 位 ， 索 引 字段 8 位 ,一 个 4 位 (第 5 一 2 位 ) 的 字段 用 来 在 块 
内 进行 索引 ， 并 使 用 一 个 16 选 1 的 多 路 选择 器 从 块 中 选择 所 需 的 字 。 实 际 上 ， 为 了 消除 多 路 
选择 器 ，cache 使 用 一 个 单独 的 大 容量 RAM 存放 数据 ， 用 一 个 较 小 的 RAM 存放 标记 ， 块 偏 
移 为 大 容量 数据 RAM 提供 了 额外 的 地 址 位 。 这 样 ， 大 容量 RAM 为 32 位 宽 ， 并且 字 的 数量 
必须 为 cache 中 块 数 的 16 倍 





图 5-13 Intrinsity FastMATH 处 理 器 执行 SPEC CPU 2000 测试 程序 时 指令 和 数据 的 近似 缺失 率 。 综 合 
缺失 率 是 将 16KiB 的 指令 cache 和 16KiB 的 数据 cache 结合 起 来 考虑 的 实际 缺失 率 ， 通 过 将 
指令 和 数据 访问 的 频率 加 权 指 令 和 数据 各 自 的 缺失 率 获得 


尽管 缺失 率 是 cache 设计 的 一 个 重要 特征 ， 但 最 终 的 衡量 标准 是 存储 系统 对 程序 执行 时 
间 的 影响 。 稍 后 我 们 将 讨论 缺失 率 与 执行 时 间 之 间 的 关系 。 

闭 淆 一 个 总 容量 等 于 两 个 分 离 cache (split cache) 容量 之 和 | 分 离 cache : 存储 器 层次 
的 混合 cache ( combined cache) 通常 具有 更 好 的 命中 率 ， 原 因 是 混 | 中 的 一 层 ， 由 两 个 独立 但 
合 cache 没有 将 指令 使 用 的 cache 块 与 数据 使 用 的 cache 块 严格 切 分 | 并行 工作 的 cache 组 成 
开 来 。 尽 管 如 此 ， 目 前 几乎 所 有 的 处 理 器 都 使 用 分 离 的 指令 和 数据 | 和， 个人 
cache 以 提高 cache 带宽 ， 进 而 满足 现代 流水 线 的 需求 (同时 也 可 以 
减少 冲突 失效 ， 见 5.8 节 )。 

下 面 是 Intrinsity FastMATH 处 理 器 中 cache 的 缺失 率 ， 混 合 cache 的 容量 等 于 两 个 分 离 
cache 容量 之 和 。 

e cache 总 容量 : 32KiB。 
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日 分离 cache 的 实际 缺失 率 : 3.24%。 

日 混合 cache 的 缺失 率 : 3.18%。 
分 离 cache 的 缺失 率 只 是 稍 差 一 点 。 

通过 支持 指令 和 数据 同时 访问 来 使 cache 带宽 加 倍 ， 这 一 优点 很 容易 掩盖 缺失 率 稍微 增 
加 的 缺点 。 这 也 提醒 我 们 缺失 率 不 是 衡量 cache 性 能 的 唯一 标准 ， 正 如 5.4 节 所 示 。 


5.3.5 小 结 


本 节 从 最 简单 的 cache 开始 : 每 块 只 有 一 个 字 的 直接 映射 cache。 在 这 样 的 cache 中 ， 命 
中 和 缺失 都 很 简单 ， 因 为 每 个 字 都 明确 地 被 写 人 到 一 个 位 置 ， 同 时 每 个 字 都 有 单独 的 标记 。 
为 了 保持 cache 和 主 存 的 一 致 性 ， 可 以 使 用 写 直达 机 制 ， 这 样 ， 每 次 对 cache 进行 写 操作 都 
会 引起 主 存 的 更 新 。 不 同 于 写 直达 ， 写 回 机 制 仅 在 cache 块 被 替换 时 才 将 该 块 复制 到 主 存 
中 。 在 后 面 的 章节 中 我 们 将 进一步 讨论 这 一 机 制 。 

为 了 利用 空间 局 部 性 ，cache 中 的 块 必须 大 于 一 个 字 。 使 用 更 大 的 块 可 以 降低 缺失 率 ， 
并 且 通 过 减少 cache 中 与 数据 存储 量 相关 的 标记 存储 量 来 提高 cache 的 效率 。 尽 管 更 大 的 块 
可 以 降低 缺失 率 ， 但 同时 也 会 带 来 缺失 代价 的 增加 。 如 果 缺 失 代价 与 块 大 小 成 线性 关系 增 
长 ， 那 么 较 大 的 数据 块 很 容易 导致 性 能 变 差 。 

为 了 避免 性 能 损失 ， 可 以 通过 增加 主 存 的 带宽 来 更 高 效 地 传输 cache 块 。 增 加 DRAM 外 部 
带宽 最 常用 的 方法 是 增加 存储 器 宽度 以 及 交叉 存 取 ( interleaving)。DRAM 设计 者 还 逐步 改进 了 
处 理 器 和 存储 器 之 间 的 接口 以 增加 突 发 模式 下 传输 的 带宽 ， 从 而 减少 使 用 更 大 cache 块 的 成 本 。 





5.4 ”cache 性 能 的 评估 和 改进 


本 节 首 先 考察 评估 和 分 析 cache 性 能 的 方法 ， 然 后 探讨 两 种 不 同 的 cache 性 能 改进 技术 。 
第 一 种 技术 是 通过 减少 存储 器 中 不 同 数据 块 争 用 cache 中 同一 位 置 的 概率 来 降低 缺失 率 。 第 
二 种 技术 通过 在 存储 器 层次 结构 中 额外 增加 一 层 来 减少 缺失 代价 ， 这 种 技术 称 为 多 级 cache 
( multilevel caching)。 多 级 cache 技术 最 初出 现在 1990 年 售 价 超过 100 000 美元 的 高 端 计算 
机 中 ， 此 后 该 技术 被 广泛 应 用 于 个 人 移动 设备 中 ， 而 售 价 只 有 几 百 美元 ! 

CPU 时 间 可 以 划分 为 CPU 执行 程序 所 花费 的 时 钟 周 期 和 CPU 等 待 存储 系统 花费 的 时 钟 
周期 。 通 常 ， 我 们 假定 cache 访问 命中 的 开销 是 CPU 正常 执行 周期 的 一 部 分 。 因 此 ， 

CPU 时 间 = (CPU 执行 时 钟 周期 数 + 存储 器 阻塞 的 时 钟 周期 数 ) X 时 钟 周期 时 间 

存储 器 阻塞 的 时 钟 周期 数 主要 来 自 于 cache 缺失 ， 这 里 我 们 同样 进行 这 种 假设 。 同 时 ， 我 们 
将 讨论 限制 在 存储 系统 的 简化 模型 上 。 在 实际 的 处 理 器 中 ,由 读 、 写 操作 产生 的 阻塞 可 能 十 
分 复杂 ， 并 且 对 性 能 的 准确 预测 通常 需要 对 处 理 器 和 存储 系统 进行 细致 的 模拟 。 
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存储 器 阻塞 的 时 钟 周 期 数 可 以 被 定义 为 读 操作 与 写 操作 引起 的 阻塞 的 时 钟 周 期 数 之 和 : 
存储 器 阻塞 时 钟 周期 数 = ( 读 引 起 阻塞 的 时 钟 周期 数 + 写 引 起 阻塞 的 时 钟 周 期 数 ) 
读 阻 塞 的 时 钟 周期 数 可 以 根据 每 个 程序 中 读 的 次 数 、 读 操作 发 生 缺 失 时 的 代价 (时钟 周期 数 ) 
以 及 读 缺 失 率 来 定义 : 
读 的 次 数 ” 


读 阻塞 的 时 钟 周期 数 = X 读 缺 失 率 x 读 缺 失 代 价 
程序 


写 操作 更 为 复杂 。 对 于 写 直达 机 制 ， 有 两 种 情况 引起 阻塞 : 一 种 是 写 缺失 ， 通 常 要求 在 继续 
执行 写 操作 之 前 取 回 数据 块 (关于 写 处 理 的 更 多 细节 参考 5.3.3 节 的 精 解 部 分 ) ; 另 一 种 是 写 
缓冲 区 阻塞 ， 当 写 操作 发 生 时 写 缓冲 区 已 满 则 可 能 发 生 这 种 情况 。 因 此 ， 写 操作 阻塞 的 时 钟 
周期 数 为 这 两 者 之 和 ， 即 : 

写 的 次 数 


写 阻 塞 的 时 钟 周 期 数 = 程序 X 写 缺 失 率 xX 写 缺失 代价 二 写 缓冲 区 阻塞 数 


由 于 写 缓冲 区 阻塞 取决 于 写 操作 的 时 机 ， 而 不 仅仅 是 频率 ， 因 此 无 法 给 出 一 个 简单 公式 
来 计算 这 种 阻塞 。 幸 运 的 是 ， 如 果 系 统 中 写 缓冲 区 的 深度 合适 (例如 ，4 个 或 多 个 字 )， 并 且 
存储 器 接收 写 操作 的 速率 要 明显 超过 程序 中 的 平均 写 频率 (例如 ， 两 倍 )， 那 么 写 缓冲 区 的 
阻塞 将 变 得 很 少 ， 以 致 可 以 将 其 安全 忽略 。 如 果 一 个 系统 达 不 到 这 些 标准 ， 则 说 明 没 有 设计 
好 ; 设计 人 员 应 该 使 用 更 深 的 写 缓冲 区 或 使 用 写 回 机 制作 为 替代 。 

写 回 机 制 同样 可 能 产生 额外 的 阻塞 ， 因 为 当 一 个 cache 块 被 替换 时 需要 将 该 块 写 回 到 主 
存 中 ， 此 时 可 能 会 产生 阻塞 。5.8 节 将 对 此 进行 更 详细 的 讨论 。 

在 大 多 数 写 直 达 cache 结构 中 ， 读 和 写 的 缺失 代价 是 一 样 的 〈 都 是 从 主 存 中 取出 所 需 块 
的 时 间 )。 如 果 假 设 写 缓冲 区 阻塞 可 以 忽略 ， 那 么 我 们 可 以 将 读 写 操作 合并 ， 并 使 用 单一 的 
缺失 率 和 缺失 代价 ; 

存储 器 访问 次 数 


存储 器 胃 塞 的 时 钟 周期 数 = 程序 。” x 缺失 率 Xx 缺失 代价 
也 可 表示 为 ， 











指令 数 ” 、 缺失 数 
存储 器 阻塞 的 时 钟 周期 数 = 程序 ”指令 就 X 缺失 代价 


让 我 们 通过 一 个 简单 的 例子 来 理解 cache 的 性 能 对 处 理 器 性 能 的 影响 。 


| 例题 | 计算 cache 的 性 能 人 
假设 指令 cache 的 缺失 率 为 2%， 数 据 cache 的 缺失 率 为 4%， 处 理 器 的 CPI 为 2， 没 有 
存储 器 阻塞 ， 且 所 有 缺失 的 代价 均 为 100 个 时 钟 周期 ， 如果 使 用 一 个 从 不 发 生 缺 失 的 理想 
cache， 处 理 器 的 速度 快 多 少 ? 这 里 假定 全 部 load 和 store 的 频率 为 36%。 
| 答案 | 指令 数 记 为 1， 由 指令 缺失 引起 的 存储 器 缺失 时 钟 周 期 数 为 
指令 缺失 时 钟 周期 数 =IX2%Xx100=2.00XI 
由 于 所 有 load 和 store 出 现 的 频率 为 36%， 我 们 可 以 计算 出 数据 访问 的 存储 器 缺失 时 钟 周期 数 ; 
数据 缺失 时 钟 周 期 数 =IX36%X4%X100= 1.44xI 
总 的 存储 器 阻塞 时 钟 周期 数 为 2.00I + 1.441 = 3.44I。 也 就 是 每 指令 存储 器 阻塞 超过 3 个 时 钟 


名 即 每 程序 中 读 的 次 数 。 一 一 译 者 注 
加 这 里 应 为 存储 访问 指令 数 - 译 者 注 
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周期 。 因此， 包括 存 储 器 阻塞 在 内 的 总 的 CPI 是 2 + 3.44 = 5.44。 由 于 指令 计数 器 或 时 钟 频 
率 都 没有 改变 ，CPU 执行 时 间 的 比率 为 
有 阻塞 的 CPU 执行 时 间 IXCPIw¥ X 时 钟 周期 ” CPlmg _ 5.44 





配置 理想 cache 的 CPU 执行 时 间 。 IXCPIxn X 时 钟 周期 ” CPIaw 2 
因此 ， 配 置 了 理想 cache 的 CPU 的 性 能 是 原来 的 5.44/2 = 2.72 倍 。 


如 果 处 理 器 速度 变 得 更 快 ， 而 存储 系统 却 没有 跟 上 变化 ,那么 会 发 生 什么 ? 存储 器 阻塞 
上 花费 的 时 间 占 据 执行 时 间 的 比例 将 会 上 升 ， 第 1 章 介 绍 的 Amdahl 定律 也 提醒 了 我 们 这 个 
事实 。 一 些 简单 的 例子 会 说 明 这 个 问题 有 多 严重 。 假 设 我 们 加 速 上 面 例子 中 的 计算 机 ， 通 过 
改进 流水 线 ， 在 不 改变 时 钟 频率 的 情况 下 ， 将 CPI 从 2 降 到 1。 那 么 具有 cache 缺失 的 系统 
的 CPI 为 1+3.44= 4.44， 而 配置 理想 cache 的 系统 性 能 是 


4.44 
一 444 从 





存储 器 阻塞 所 花费 的 时 间 将 从 


上 升 到 


同样 ， 仅 仅 提高 时 钟 频率 而 不 改进 存储 系统 也 会 因 cache 缺失 而 加 剧 性 能 的 损失 。 

前 面 的 例子 和 公式 假设 命中 时 间 不 作为 决定 cache 性 能 的 因素 。 显 然 ， 如 果 命 中 时 间 增 
加 ， 那 么 从 存储 系统 中 访问 一 个 字 的 总 时 间 也 会 增加 ， 继 而 可 能 导致 处 理 器 时 钟 周期 的 增 
加 。 稍 后 我 们 还 将 看 到 其 他 一 些 关于 提高 命中 时 间 的 例子 。 这 里 还 有 一 个 例子 是 关于 增加 
cache 容量 的 。 大 容量 的 cache 显然 访问 时 间 也 更 长 ， 就 像 如 果 图 书馆 的 书桌 很 大 (比如 3 平 
米 )， 那 么 在 桌 上 找到 一 本 书 必然 要 花费 更 长 的 时 间 。 命 中 时 间 的 增加 可 能 要 在 流水 线 中 增加 
一 级 ， 因 为 cache 命中 需要 多 个 时 钟 周期 完成 。 尽 管 计算 深度 流水 对 性 能 的 影响 更 为 复杂 ， 
但 在 某 种 程度 上 ， 大 容量 cache 命中 时 间 的 增加 影响 了 命中 率 的 改进 ， 从 而 导致 处 理 器 性 能 
的 下 降 。 

为 了 捕获 命中 和 缺失 情况 下 数据 访问 时 间 对 性 能 影响 的 证 据 ， 设 计 人 员 有 时 会 使 用 平均 
访 存 时 间 ( Average Memory Access Time，AMAT) 作为 男 一 种 检测 cache 设计 的 途径 。 平 均 访 
存 时 间 是 综合 考虑 了 命中 、 缺 失 以 及 不 同 访问 的 频率 后 得 出 的 平均 访 存 时 间 ， 计 算 公式 如 下 : 

AMAT = 命中 时 间 十 缺失 率 X 缺失 代价 


| 例题 | 计算 平均 访 存 时 间 = 
一 个 处 理 器 时 钟 周期 为 1Ins， 缺 失 代 价 是 20 个 时 钟 周 期 ， 缺 失 率 为 每 条 指令 0.05 次 缺 
失 ，cache 访问 时 间 (包括 命中 判断 ) 为 1 个 时 钟 周 期 。 假 设 读 操作 和 写 操作 的 缺失 代价 相同 
并 且 忽 略 其 他 写 阻塞 。 请 计算 AMAT。 
| 答案 | 每 条 指令 的 平均 访 存 时 间 为 
AMAT = 命中 时 间 十 缺失 率 X 缺失 代价 =1+0.05x20=2 个 时 钟 周期 
即 2ns。 - 
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下 一 节 将 讨论 另 一 种 cache 组 织 结构 ， 这 种 结构 减少 了 缺失 率 ， 但 是 有 时 可 能 会 增加 命 
中 时 间 。 在 5.16 节 将 给 出 其 他 的 例子 。 


5.4.1 ”通过 更 灵活 的 块 放置 策略 来 减少 cache 缺失 


到 目前 为 止 ， 我 们 采用 简单 的 放置 机 制 将 一 个 块 放置 在 cache 中 ， 即 一 个 块 只 能 放 到 
cache 中 一 个 确定 的 位 置 。 正 如 前 面 所 述 ， 这 种 方法 称 为 直接 映射 ， 因 为 存储 器 中 任何 一 块 
都 被 直接 映射 到 存储 器 层次 结构 中 较 高 层 的 唯一 位 置 上 。 实 际 上 ， 有 一 整套 放置 块 的 方法 。 
直接 映射 是 一 种 极端 的 情况 ， 此 时 块 被 精确 地 放 到 一 个 位 置 上 。 

另 一 个 极端 是 : 块 可 以 被 放置 在 cache 中 的 任意 位 置 。 这 种 机 | 全 相 联 cache: 一 种 cache 
制 称 为 全 相 联 ( fully associative)， 因 为 存储 器 中 的 块 可 以 与 cache | 组 织 方式 ， 块 可 以 放置 到 
中 的 任何 一 项 相关 。 若 想 在 全 相 联 cache 中 找到 一 个 指定 的 块 ， 由 | eache 中 的 任何 位 置 。 

于 该 块 可 能 存放 在 cache 中 的 任何 位 置 ， 因 此 需要 检索 cache 中 所 有 | 组 相 联 cache ， 决 可 以 歼 
的 项 。 为 了 使 检索 更 加 有 效 ， 检 索 由 一 个 与 cache 中 每 个 项 都 相关 | 里 到 cache 中 国定 的 几 个 
的 比较 器 并 行 完成 。 这 些 比 较 器 极 大 增加 了 硬件 开销 ， 因 而 ， 全 相 | 位置 (至少 两 个 ), 而 在 
联 只 适合 块 数 较 少 的 cache。 es 

介 于 直接 映射 和 全 相 联 之 间 的 设计 是 组 相 联 ( set associative)。 站 
在 组 相 联 cache 中 ， 每 个 块 有 若干 个 可 以 放置 的 固定 位 置 。 每 个 块 有 个 位 置 可 放 的 组 相 联 
cache 称 为 n 路 组 相 联 cache。 一 个 n 路 组 相 联 cache 由 很 多 个 组 构成 ， 每 个 组 中 有 n 块 。 根 
据 索 引 字段 ， 存 储 器 中 的 每 个 块 对 应 到 cache 中 唯一 的 组 ， 并且 块 可 以 放 在 这 个 组 中 的 任何 
位 置 上 。 因 此 ， 组 相 联 策略 将 直接 映射 和 全 相 联 映射 结合 起 米 : 块 首先 被 直接 映射 到 组 ， 然 
后 检索 该 组 中 所 有 的 块 以 判断 是 否 匹 配 。 例 如 ， 图 5-14 给 出 了 三 种 策略 下 ， 块 12 被 放置 在 
一 个 容量 为 8 块 的 cache 中 的 情况 。 


直接 映射 组 相 联 全 相 联 
Block# 01234567 Set# 0 1 2 3 








Data Data Data 











Tag 


Sy a 


图 5-14 采用 直接 映射 、 组 相 联 以 及 全 相 联 机 制 时 ， 地 址 为 12 的 主 存 块 在 容量 为 8 块 的 cache 中 的 位 
置 。 在 直接 映射 方式 下 ， 主 存 块 12 只 能 放置 在 cache 中 唯一 的 块 中 ， 该 块 为 ( 12 mod 8 ) = 4。 
在 两 路 组 相 联 cache 中 ， 有 4 个 组 ， 主 存 块 12 必须 放 在 第 ( 12 mod 4 ) = 0 组 中 ， 并 可 以 放 在 
该 组 的 任何 位 置 。 在 全 相 联 方式 下 ， 块 地 址 为 12 的 主 存 块 可 以 放 在 cache 中 8 个 块 的 任意 一 块 


回顾 在 直接 映射 cache 中 ， 存 储 块 的 位 置 如 下 : 
( 块 号 ) mod (cache 中 的 块 数 ) 
而 在 组 相 联 cache 中 ,包含 存储 块 的 组 如 下 : 
( 块 号 ) mod (cache 中 的 组 数 ) 
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由 于 块 可 能 被 放 在 组 中 的 任何 位 置 ， 因 此 组 中 所 有 块 的 标记 都 要 被 检查 。 而 在 全 相 联 
cache 中 ， 块 可 以 被 放 在 任何 位 置 ， 因 此 cache 中 所 有 块 的 所 有 标记 都 要 被 检查 。 

我 们 同样 可 以 把 所 有 的 块 放置 策略 看 成 组 相 联 的 一 个 特例 。 图 5-15 给 出 了 一 个 8 块 的 
cache 可 能 的 相 联结 构 。 直 接 映射 cache 是 一 个 简单 的 一 路 组 相 联 cache : cache 的 每 项 有 一 
个 块 ， 并且 每 组 只 有 一 个 元 素 。 可 以 将 具有 m 项 的 全 相 联 cache 看 成 一 个 简单 的 m 路 组 相 联 
cache， 只 有 一 个 组 ， 组 里 有 mw 块 ， 每 一 项 可 以 放 在 该 组 的 任何 一 块 中 。 
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图 5-15 拥有 8 个 块 的 cache 配置 成 直接 映射 、 两 路 组 相 联 、 四 路 组 相 联 以 及 全 相 联 结构 。cache 中 块 的 
总 数 等 于 组 数 乘 以 相 联 度 。 因 此 ， 对 于 一 个 固定 大 小 的 cache， 增 加 相 联 度 的 同时 减少 了 组 数 ， 
同时 也 增加 了 每 组 的 元 素数 量 。 一 个 容量 为 8 个 块 的 八路 组 相 联 cache 等 同 于 一 个 全 相 联 cache 


提高 相 联 度 的 好 处 在 于 通常 能 够 降低 缺失 率 ， 如 下 例 所 示 。 而 主要 的 缺点 则 是 潜在 地 增 
加 了 命中 时 间 ， 稍 后 我 们 将 详细 讨论 。 


| 例题 | cache 的 缺失 与 相 联 度 - 
假设 有 三 个 小 容量 的 cache， 每 个 都 有 4 个 块 ， 块 大 小 为 1 个 字 。 第 一 个 cache 是 全 相 

联 方 式 , 第 二 个 是 两 路 组 相 联 ， 第 三 个 是 直接 映射 。 求 按 块 地 址 0、8、0、6、8 依次 访问 时 ， 

每 个 cache 的 缺失 次 数 。 

| 答案 | 直接 映射 cache 最 简单 ， 首 先 确定 每 个 块 地 址 对 应 的 cache 块 : 














0 | (omoduio4)=0 | 
6 | (6modulo 4)=2 
8 {8 modulo 4) = 0 











现在 ,我 们 可 以 在 每 次 访问 后 在 cache 中 填 入 内 容 ， 空 白 项 表示 无 效 的 块 。 灰 色 的 项 表 
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示 在 相关 访问 中 ， 有 一 个 新 的 项 被 加 人 cache 中 ， 其 他 的 项 则 表示 cache 中 旧 的 项 。 













访 疝 后 cache 中 的 内 容 
































Memomtol 
MemoryiS] 

Memolol Ez | = 
Memory{O] Memory8] | 本 
Memory{8] Memoryl6] | 





直接 映射 cache 的 5 次 访问 产生 5 次 缺失 。 
组 相 联 cache 有 两 组 (组 0 和 组 1)， 每 组 两 个 元 素 ， 首 先 确定 每 个 块 地 址 映射 到 哪 
一 组 : 








和 (Omodulo 2)=0 








二 6 (6 modulo 2) =0 
8 (8 modulo 2)=0 


由 于 缺失 时 ， 我 们 需要 选择 替换 组 中 的 某 一 项 ， 因 此 需要 一 个 替换 规则 。 组 相 联 cache 通常 
会 选择 替换 一 组 中 最 近 最 少 使 用 (least recently used) 的 块 ; 也 就 是 说 ， 在 过 去 最 久远 用 到 的 
那 一 块 将 被 替换 ( 稍 后 我 们 将 详细 讨论 其 他 替换 规则 )。 使 用 该 替换 策略 时 ， 每 次 访问 后 组 
相 联 cache 中 的 内 容 如 下 所 示 : 


访问 后 cache 中 的 内 容 








缺失 “| Memorylol 
缺失 | Memorylol | Memoryl8] | 
命中 | Memoryl0] | Memoryl8] | | 
缺失 | Memoryl0] | Memoryi6] | 


三 一 二 =- 俩 拓 _| Memorys] | Memocie] 


注意 ， 块 6 被 访问 时 ， 将 替换 块 8， 因 为 相 比 块 0， 块 8 是 最 近 最 少 使 用 的 块 。 两 路 组 相 联 
cache 总 共有 4 次 缺失 ， 比 直接 映射 cache 少 1 次 。 

全 相 联 cache 有 4 个 cache 块 (在 一 个 组 中 )， 存 储 器 中 任意 一 块 可 放 到 cache 的 任何 位 
置 。 全 相 联 cache 性 能 最 好 ， 只 有 3 次 缺失 : 











0 
8 
0 
6 





























缺失 “| Memory0] | 
缺失 Memory0] & Memory[8] 








_ 命 中 | MemomM0] | Memory[8] | 
缺失 | Memoy0] | Memory[8] | Memoryl6] 


命中 Memory0] | Memory[8] | Memory[6] 


























ololololo 


对 于 这 一 系列 的 访问 ，3 次 缺失 是 我 们 可 以 得 到 的 最 好 结果 ， 因 为 有 3 个 不 同 地址 的 块 被 访 
问 。 注 意 ， 如 果 cache 中 有 8 块 ， 那 么 两 路 组 相 联 cache 中 将 不 会 发 生 蔡 换 (请 读者 自己 验 
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证 )， 并 且 缺 失 次 数 与 全 相 联 cache 一 样 多 。 类 似 的 ， 如 果 有 16 块 ， 这 三 种 cache 会 有 相同 
的 缺失 次 数 。 这 个 简单 的 例子 已 经 说 明了 在 判断 cache 性 能 时 ，cache 容量 和 相 联 度 不 是 相 
互 独立 的 。 站 





相 联 度 能 使 缺失 率 下 降 多 少 呢 ? 图 5-16 显示 了 一 个 容量 为 64KiB， 块 大 小 为 16 字 的 数 
据 cache， 当 相 联 度 从 直接 映射 到 八路 组 相 联 变化 时 性 能 的 改进 情况 。 从 一 路 到 两 路 组 相 联 ， 
缺失 率 下 降 了 大 约 15%， 但 是 对 更 高 的 相 联 度 ， 缺失 率 的 改善 就 很 小 了 。 




















图 5-16 采用 与 Intrinsity FastMATH 处 理 器 类 似 结构 ， 执 行 SPEC CPU 2000 基准 测试 程序 ， 相 联 度 
从 一 路 到 八路 变化 时 ， 数 据 cache 的 缺失 率 。 这 10 个 SPEC CPU 2000 测试 程序 的 结果 来 自 
Hennessy 和 Patterson ( 2003 ) 


5.4.2 在 cache 中 查找 块 


现在 , 我们 考虑 如 何在 组 相 联 cache 中 查找 块 。 正 如 在 直接 映射 cache 中 一 样 ， 组 相 联 
cache 中 每 一 块 都 包含 一 个 地 址 标记 用 来 确定 块 地 址 。 在 被 选中 组 中 每 个 cache 块 的 标记 都 
要 进行 检查 ， 判 断 其 是 否 和 来 自 处 理 器 的 块 地 址 相 匹配 。 图 5-17 分 解 出 了 地 址 的 组 成 。 索 
引 值 用 来 选择 包含 所 需 地 址 的 组 ， 该 组 中 所 有 块 的 标记 都 必须 被 检查 。 由 于 速度 是 最 重要 的 
性 能 之 一 ， 所 以 并 行 检索 被 选中 的 组 中 所 有 块 的 标记 。 就 像 在 全 相 联 cache 中 一 样 ， 顺 序 检 
索 将 使 得 组 相 联 cache 的 命中 时 间 变 得 太 长 。 





Tag Index Block offset 


图 5-17 组 相 联 或 者 直接 映射 cache 中 地 址 的 三 个 组 成 部 分 。 索 引 ( Index) 用 
来 选择 一 个 组 ， 标 记 ( Tag) 用 来 和 选中 组 中 的 块 进行 比较 从 而 选择 
块 ， 块 内 偏 移 (Block offset) 是 块 中 被 请 求 数据 的 地 址 


如 果 cache 总 容量 保持 不 变 ， 提 高 相 联 度 就 增加 了 每 组 中 的 块 数 ， 也 就 是 并 行 查找 时 同 
时 比较 的 数量 : 相 联 度 每 增加 到 两 倍 就 会 使 每 组 中 的 块 数 加倍 ， 并 使 组 数 减 半 。 相 应 地 ， 相 
联 度 每 增加 两 倍 ， 索 引 就 会 减少 1 位 ， 标 记 增加 1 位 。 在 全 相 联 cache 中 只 有 一 组 ， 所 有 块 
必须 并 行 检测 。 因 此 ， 没 有 索引 ， 并 且 除 了 块 内 偏 移 ， 整 个 地 址 都 需要 和 每 个 cache 块 的 标 
记 进行 比较 。 换 句 话说 ， 我 们 不 通过 索引 ， 而 是 查找 整个 cache。 

在 直接 映射 cache 中 ， 只 需要 一 个 比较 器 ， 因 为 每 一 项 只 能 有 一 个 块 ， 并 且 可 以 通过 索 
引 简单 地 访问 cache。 图 5-18 中 ， 一 个 四 路 组 相 联 cache 需要 四 个 比较 器 以 及 一 个 4 选 1 的 
多 路 选择 器 ， 用 来 在 选 定 组 中 的 四 个 可 能 成 员 之 间 进行 选择 。cache 访问 包括 索引 相应 的 组 ， 
然后 在 组 中 检测 标记 。 组 相 联 cache 的 开销 包括 额外 的 比较 器 以 及 由 于 对 组 中 元 素 进行 比较 
和 选择 而 产生 的 延迟 。 

在 存储 器 层次 结构 中 选择 直接 映射 、 组 相 联 还 是 全 相 联 映射 ， 取决 于 缺失 代价 和 相 联 度 
实现 的 代价 之 间 的 权衡 ， 既 要 考虑 时 间 ， 也 要 考虑 硬件 开销 
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地 址 
3130…12111098-…3210 










































































图 5-18 实现 一 个 四 路 组 相 联 的 cache 需要 四 个 比较 器 和 一 个 4 选 1 多 路 选择 器 。 比 较 器 用 来 判断 被 
选中 的 组 (如果 有 ) 中 哪 一 个 单元 与 标记 匹配 。 比 较 器 的 输出 通过 使 用 带 有 译 码 选 择 信号 的 多 
路 选择 器 ， 在 被 索引 的 组 中 的 四 个 块 中 选择 数据 。 在 一 些 具体 实现 中 ，cache RAM 数据 部 分 
的 输出 使 能 信号 可 以 用 来 选择 驱动 输出 的 组 中 的 数据 项 。 输 出 使 能 信号 来 自 比 较 器 ， 使 得 匹 
配 的 单元 驱动 数据 输出 。 这 种 结构 不 需要 使 用 多 路 选择 器 
贺 梧 内容 可 寻 址 存储 器 (Content Addressable Memory,CAM) 9 是 一 种 将 比较 和 存储 结 
合 在 一 个 器 件 上 的 电路 结构 。CAM 不 像 RAM 那样 根据 地 址 读数 据 ， 而 是 由 用 户 提供 数据 ， 
然后 CAM 查看 它 是 否 有 副本 并 且 返 回 匹配 行 的 索引 。CAM 意味 着 cache 设计 者 能 够 实现 更 
高 的 相 联 度 ， 这 比 在 SRAM 和 比较 器 之 外 构建 硬件 才能 实现 的 相 联 度 还 要 高 。 在 2013 年 ， 
CAM 更 大 的 容量 和 功 耗 使 得 两 路 和 四 路 组 相 联 结构 一 般 采 用 标准 的 SRAM 和 比较 器 构建 ， 
而 八路 以 及 更 多 路 组 相 联 的 结构 则 采用 CAM 构建 。 


5.4.3 ”替换 块 的 选择 


当 直 接 映 射 cache 发 生 缺 失 时 ， 被 请 求 的 块 只 能 放置 于 cache 中 唯一 的 位 置 ， 而 原先 占 
据 该 位 置 的 块 就 必须 被 替换 掉 。 在 相 联 cache 中 ， 请 求 的 块 放 置 在 哪 需要 进行 选择 ， 因 此 赫 
换 哪 一 块 也 要 进行 选择 。 在 全 相 联 cache 中 ， 所 有 的 块 都 可 能 被 替换 。 在 组 相 联 cache 中 ， 
我 们 必须 在 选中 的 组 中 挑选 被 替换 的 块 。 

最 常用 的 策略 是 最 近 最 少 使 用 ( Least Recently Used，LRU) 算 | 最 近 最 少 使 用 ， 一 种 替换 
法 ， 也 是 前 面 例子 中 使 用 的 方法 。 在 LRU 算法 中 ,被 蔡 换 的 块 是 | 策略 ， 总 是 痊 换 景 长 时 间 
最 久 没有 被 使 用 的 块 。5.4.1 节 组 相 联 的 例子 中 就 使 用 了 LRU 算法 ， | 没有 使 用 的 决 。 
这 也 是 我 们 替换 Memory(0) 而 不 是 Memory(6) 的 原因 。 


日 ”也 称 为 相 联 存储 器 。 一 一 译 者 注 
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LRU 替换 算法 通过 追踪 一 组 内 每 个 元 素 相对 组 内 其 他 元 素 使 用 的 时 间 来 实现 。 对 于 一 
个 两 路 组 相 联 cache， 追 踪 组 中 两 个 元 素 何 时 被 使 用 可 以 这 样 实现 .在 每 组 中 单独 保留 一 位 ， 
当 某 个 元 素 被 访问 时 ， 就 设置 该 位 以 指出 该 元 素 。 当 相 联 度 提高 时 ， 实 现 LRU 将 变 得 困难 
些 ; 5.8 节 将 会 讨论 另 一 种 替换 机 制 。 


| 例题 | 标记 位 大 小 与 相 联 度 a 
提高 相 联 度 需 要 更 多 的 比较 器 ， 并 且 每 个 cache 块 需要 更 多 的 标记 位 。 假 设 一 个 cache 

有 4096 个 块 ， 块 大 小 为 4 个 字 ， 地 址 为 64 位 ， 请 分 别 计算 在 直接 映射 、 两 路 组 相 联 、 四 路 

组 相 联 和 全 相 联 情况 下 ，cache 的 总 组 数 以 及 总 的 标记 位 数 。 

| 答案 | 由 于 每 块 有 16 (= 24) 个 字 节 ，64 位 地 址 字段 中 的 64 - 4 = 60 位 用 来 提供 索引 和 标 

记 位 。 直 接 映射 中 组 数 和 块 数 数量 一 样 ， 因 此 有 12 位 作为 索引 (logz (4096 ) = 12 ) ; 因此 

一 共有 ( 60 - 12 ) x 4096 = 48 x 4096 = 197Kb 标记 位 。 

相 联 度 每 增加 1 倍 ， 组 数 就 会 减少 12， 因 此 用 来 索引 cache 的 位 数 也 要 相应 减 1， 而 
标记 位 位 数 则 增 1。 因 此 ， 对 于 一 个 两 路 组 相 联 cache， 有 2048 个 组 ， 总 的 标记 位 数 为 
(60 -11 ) x2x2048 = 98x2048 = 401Kb。 而 四 路 组 相 联 中 ， 组 数 为 1024, 一 共有 (60 - 
10) x4x1024= 100x1024=205Kb 标志 位 。 

对 于 全 相 联 cache， 只 有 一 个 有 4096 个 块 的 组 ， 每 个 标记 位 有 60 位 ， 因 此 总 的 标记 位 
数 是 60x4096x1=246Kb。 a 











5.4.4 ”使 用 多 级 cache 减少 缺失 代价 


所 有 现代 计算 机 都 使 用 cache。 为 了 进一步 减 小 现代 处 理 器 高 时 钟 频 率 与 日 益 增长 的 
DRAM 访问 时 间 之 间 的 差距 ， 大 多 数 微 处 理 器 都 会 增加 额外 一 级 cache。 这 种 二 级 cache 通 
常 位 于 同一 个 芯片 内 ， 当 一 级 cache 缺失 时 被 访问 。 如 果 二 级 cache 中 包含 所 需要 的 数据 ， 
那么 一 级 cache 的 缺失 代价 主要 就 是 二 级 cache 的 访问 时 间 ， 这 要 比 访问 主 存 的 时 间 少 得 多 。 
如 果 一 级 和 二 级 cache 中 均 不 包含 所 需 的 数据 ， 就 需要 访问 主 存 ， 从 而 产生 更 大 的 缺失 代价 。 

二 级 cache 带 来 的 性 能 改进 有 多 少 ? 下 面 这 个 例子 将 会 告诉 我 们 。 


| 例题 | 多 级 cache 的 性 能 = 
假定 一 个 处 理 器 的 基本 CPI 为 1.0， 并 假设 所 有 访问 在 一 级 cache 中 均 合 中， 时钟 频率 

为 4GHz。 主 存 访问 时 间 为 100ns， 包 括 缺 失 处 理 时 间 。 假 设 一 级 cache 中 每 条 指令 缺失 率 为 

2%。 如 果 增 加 一 个 二 级 cache， 其 命中 或 缺失 的 访问 时 间 都 是 5ns， 而且 容量 大 到 使 访问 主 

存 的 缺失 率 减少 到 0.5%， 那 么 此 时 处 理 器 速率 能 提高 多 少 ? 

| 答案 | 主 存 的 缺失 代价 为 








一 ms。 一 -400 个 时 钊 周期 


nn 
25 可 加 周期 
只 有 一 级 cache 的 处 理 器 的 有 效 CPI 由 下 列 公式 给 出 : 
总 CPI= 基本 CPI+ 每 条 指令 的 存储 器 阻塞 时 钟 周期 
即 
总 CPI= 1.0+ 每 条 指令 的 存储 器 阻塞 时 钟 周期 = 1.0+ 2%X400=9 
名 即 每 个 时 钟 周期 为 0.25ns。 一 一 译 者 注 
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对 于 两 级 cache， 一 级 cache 缺失 时 可 以 由 二 级 cache 或 者 主 存 来 满足 。 访 问 二 级 cache 的 缺 
失 代价 为 
Sns 


一 一 一 =20 个 时 钟 周期 


n 
0.25 再 古 周 关 
如 果 缺 失 由 二 级 cache 满足 ， 那 么 这 就 是 整个 缺失 代价 - 但 如 果 缺 失 需 要 访问 主 存 ， 那 么 总 
的 缺失 代价 就 是 二 级 cache 访问 时 间 和 主 存 访问 时 间 之 和 。 
因此 ， 对 于 一 个 两 级 的 cache， 总 CPI 是 两 级 cache 的 阻塞 时 钟 周期 数 和 基本 CPI 之 和 : 
总 CPI=1+ 一 级 cache 中 每 条 指令 的 阻塞 + 二 级 cache 中 每 条 指令 的 阻塞 
=1+2%X20+0.5%X400=1+0.4+2.0=3.4 

因此 ， 具 有 二 级 cache 的 处 理 器 性 能 是 没有 二 级 cache 处 理 器 性 能 的 

20_2.6 倍 

3.4 

我 们 还 可 以 使 用 另 一 种 方法 来 计算 阻塞 时 间 ， 即 将 在 二 级 cache 中 命中 的 那些 访问 的 阻 

塞 周期 相 加 ( (2% - 0.5%) x 20 = 0.3 )。 而 对 于 那些 必须 访问 主 存 的 阻塞 ， 必 须 同时 包括 访 
问 二 级 cache 和 访问 主 存 的 时 间 ， 即 0.5% x ( 20 + 400 ) = 2.1。 求 和 为 1.0+0.3+2.1， 同 样 
等 于 3.4。 . 





一 级 cache 和 二 级 cache 的 设计 思想 有 很 大 的 不 同 ， 因 为 相对 于 单 级 cache， 其 他 cache 
的 存在 改变 了 最 佳 选择 。 特 别 是 ， 一 个 两 级 cache 结构 中 一 级 cache 致力 于 减少 命中 时 间 以 
获得 较 短 的 时 钟 周 期 或 者 较 少 的 流水 级 ， 而 二 级 cache 则 侧重 于 改善 缺失 率 以 减少 长 时 间 的 
内 存 访问 代价 。 

通过 将 每 一 级 cache 与 优化 设计 的 单 级 cache 进行 比较 ， 我 们 | 多 级 cache : 存储 器 层次 
可 以 看 出 这 些 变化 对 两 级 cache 的 影响 。 与 单 级 cache 相 比 ， 多 级 “| 由 多 级 cache 组 成 ， 而 不 仅 
cache ( multilevel cache) 中 的 第 一 级 /初级 通常 很 小 。 另 外 ， 初 级 | 仅 只 有 一 个 cache 和 主 让。 
cache 可 能 使 用 较 小 的 块 容量 ， 与 较 小 的 cache 容量 匹配 ， 并 减少 缺 
失 代价 。 相 比 之 下 ， 由 于 二 级 cache 的 访问 时 间 不 是 关键 ， 因 此 二 级 cache 的 容量 通常 比 一 
个 单 级 cache 要 大 得 多 。 由 于 总 容量 更 大 ， 二 级 cache 可 以 使 用 比 单 级 cache 更 大 的 块 。 此 
外 ,二 级 cache 还 经 常 使 用 比 一 级 cache 更 高 的 相 联 度 以 减少 缺失 率 。 

生肖 生前 程序 员 已 经 对 排序 进行 了 详尽 的 分 析 ， 以 找到 更 好 的 算法 ， 如 冒 泡 排 序 
(bubble sort)、 快 速 排序 (quicksort) 和 基数 排序 (radix sort) 等 。 图 5-19a 给 出 了 使 用 基数 排 
序 和 快速 排序 时 指令 的 执行 情况 。 正 如 预期 的 那样 ， 对 于 大 的 数组 ， 在 操作 次 数 上 ， 基 数 排 
序 比 快速 排序 更 有 优势 。 图 5-19b 是 每 个 排序 项 平均 所 需 的 时 间 ， 而 不 是 执行 的 指令 数 。 我 
们 可 以 看 到 两 条 曲线 开始 的 轨迹 与 图 5-19a 中 相似 ,但 是 随 着 排序 数据 的 增加 ， 基 数 排序 的 
曲线 开始 偏离 。 这 是 为 何 ? 图 5-19c 用 每 项 排序 平均 cache 缺失 数 回答 了 这 个 问题 : 快速 排 
序 每 个 排序 项 的 缺失 数 要 少 得 多 。 

标准 算法 分 析 通 常会 忽略 存储 器 层次 结构 的 影响 。 正 如 更 快 的 时 钟 频率 和 哈 攻 小 律 多 
许 体 系 结构 设计 师 从 指令 流 中 获取 所 有 的 性 能 ， 合 理 地 使 用 存储 器 屋 次 结构 是 获得 高 性 能 的 
关键 。 如 我 们 在 引言 中 所 述 ， 理 解 存储 器 层次 结构 的 行为 对 于 理解 当今 计算 机 程序 的 性 能 是 
十 分 关键 的 。 
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5-19 ”比较 快速 排序 和 基数 排序 .a) 每 个 排序 项 平均 执行 指令 数 ，b) 每 个 排序 项 平均 时 间 ，e) 每 
个 排序 项 平均 cache 缺失 数 。 这 些 数据 出 自 LaMarca 和 Ladner 在 1996 年 的 一 篇 文章 。 由 于 
这 些 结果 ， 人 们 发 明了 新 的 基数 排序 算法 ,将 存储 器 层次 结构 考虑 进来 ， 以 重新 获得 算法 的 
优势 ( 见 5.15 节 )。cache 优化 的 基本 思想 是 在 某 个 块 被 替换 前 ， 重 复 使 用 该 块 中 所 有 的 数据 


5.4.5 ”通过 分 块 进行 软件 优化 


由 于 存储 器 层次 对 程序 性 能 具有 重要 的 影响 ， 因 此 许多 软件 优化 技术 通过 重用 cache 中 
的 数据 显著 提高 了 性 能 ， 并 因为 改进 了 时 间 局 部 性 而 降低 了 缺失 率 。 

在 处 理 数组 时 ， 如 果 将 数组 元 素 存储 在 存储 器 中 并 顺序 访问 ， 那 么 就 能 从 存储 系统 中 获 
得 很 好 的 性 能 。 假 定 要 处 理 多 个 数组 ， 有 些 数组 按 行 访问 ， 另 一 些 按 列 访问 。 因 为 在 每 次 循 
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环 和 迭代 中 , 行 和 列 都 要 被 使 用 ， 因 此 无 论 按 行 (也 称 为 行 优先 ) 存储 数组 或 按 列 (也 称 为 列 
优先 ) 存储 数组 都 不 能 解决 问题 。 

与 对 一 个 数组 的 整 行 或 整 列 操作 不 同 ， 分 块 的 算法 对 子 矩阵 或 块 进行 操 作 。 其 目标 是 在 
数据 被 替换 出 去 之 前 ， 最 大 限度 地 对 已 装 和 人 cache 的 数据 进行 访问 ， 即 通过 提升 时 间 局 部 性 
来 降低 cache 缺失 率 。 

例如 ，DGEMM 的 内 循环 (图 3-22 中 的 4 一 9 行 ) 如 下 : ” 

tor CE dm 3 CT 

i £1 = CTI ys B19 = ELI #4 

for( int k= 0; kn; k++ ) 

cij += ALitk*n] * BUk+j*n]; /* cij += ALiJCkJ*BCKILj] */ 

Clitj*n] = cij; /* CIiJ[j] = cij */ 

} 
该 程序 段 读 取 了 数组 B 中 的 N xN 个 元 素 ， 反 复读 取 了 数组 A 中 对 应 行 中 的 N 个 元 素 ， 并 对 
数组 c 中 对 应 行 的 N 个 元 素 进行 了 写 。( 注 释 使 得 矩阵 的 行列 更 容易 识别 。) 图 5-20 给 出 了 三 
个 数组 的 访问 情况 。 深 色 阴 影 表示 最 近 访 问 的 元 素 ， 浅 色 阴 影 表 示 早 期 访问 的 元 素 ， 白 色 表 
示 还 没有 被 访问 的 元 素 。 























图 5-20 三 个 数组 C、A、B 的 访问 情况 ，N = 6，i = 1。 数 组 元 素 的 访问 时 间 情 况 用 阴影 表示 : 白色 
表示 尚未 访问 ， 浅 色 阴 影 表示 早期 访问 ， 深 色 阴影 表示 最 近 访问 。 与 图 5-22 相 比 ,A 和 B 中 
元 素 被 反复 读 取 以 计算 新 的 元 素 C。 用 于 访问 数组 的 变量 i 、j 和 k 标注 在 行 或 列 旁 


显然 ， 缺 失 次 数 依赖 于 N 和 cache 的 容量 。 如 果 三 个 Nx N 和 矩阵 都 能 放 在 cache 中 ， 并 
且 没 有 cache 冲突 ， 则 没有 任何 问题 。 如 果 我 们 为 第 3 章 和 第 4 章 DGEMM 中 的 矩阵 选择 
32 x 32 的 尺寸 ,就 符合 这 种 情况 。 每 个 矩阵 有 32 x 32 = 1024 个 元 素 ， 且 每 个 元 素 为 8 字 
节 ， 因 此 这 三 个 矩阵 将 占据 24KiB 的 空间 ， 适 合 于 Intel Core i7 ( Sandy Bridge) 中 32KiB 的 
数据 cache。 

如 果 cache 中 能 够 容纳 一 个 NxN 的 矩阵 和 一 个 长 度 为 N 的 行 ， 那 么 至 少 的 第 i 工行 和 
数组 B 可 驻 留 在 cache 中 。 如 果 cache 容量 再 小 ， 将 可 能 导致 访问 B 和 C 产生 缺失 。 在 最 坏 
情况 下 , 将 有 2N +N? 个 存储 器 字 访 问 N* 次 操作 。 

为 了 确保 正在 访问 的 元 素 能 够 在 cache 中 命中 ， 可 以 修改 原始 代码 使 其 对 一 个 子 矩阵 
进行 计算 。 因 此 ， 我 们 可 以 反复 调用 图 4-78 中 的 DGEMM 程序 处 理 大 小 为 BLOCKSIZE x 
BLOCKSIZE 的 数组 ， 其 中 BLOCKSIZE 称 为 分 块 因子 (blocking factor)。 








日 、 原 书 代码 最 后 多 了 一 个 括号 ， 应 为 笔 误 - 一 一 译 者 注 
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图 5-21 给 出 了 DGEMM 的 分 块 版 本 。 函 数 so_block 是 图 3-22 中 的 DGEMM, 三 个 
新 参数 si 、sj 和 sk 表示 A、B、C 每 个 子 数组 的 起 始 位 置 。do_block 的 两 个 内 层 循 环 
以 BLOCKSIZE 为 步 进 长 度 进行 计算 ,而 不 是 整个 B 和 C 的 长 度 。gcc 优化 器 通过 “内 联 ” 
(inling) 函数 去 除 任何 函数 调用 的 开销 ， 即 直接 插入 代码 以 避免 传统 的 参数 传递 和 返回 地 址 
簿 记 (bookkeeping) 指令 。 





1 #define BLOCKSIZE 32 

2 void do_block (int n, int si, int sj, int sk, double *A, double 
3 *B, double *C) 

4 1 

全 for (int i = si; i < si+BLOCKSIZE; ++i) 

6 for (int j = sj; j < sj+BLOCKSIZE: ++j) 

7 { 

8 double cij = C[li+j*n];/* cij = Cr[i][j] */ 

9 for( int k = sk; k < sk+BLOCKSIZE: k++ ) 

10 cij += A[i+kxn] * B[k+jxn];/* cij+=A[i][k]*B[k]rj] */ 
11 Cli+j*n] = cij:s/* C[i][j] = cij */ 

12 } 

Ta 

14 void dgemm (int n, double* A, double* B, double* C) 

15 4 

16 for (int sj = 0; sj < n; sj += BLOCKSIZE ) 

17 Tor ¢ nt df = OT MT MOCKSILE } 

18 for (int sk = 0; sk < n; sk += BLOCKSIZE ) 

4 间作] octh, 51. ST Sk, A 03 Cs 

20 } 








图 5-21 图 3-22 中 DGEMM 的 cache 分 块 版 本 。 假 定 C 初 始 化 为 0。 函 数 do_block 来源 于 第 3 章 
中 基本 的 DGEMM， 使 用 了 新 参数 来 指明 大 小 为 BLOCKSIZE 的 子 矩 阵 的 起 始 位 置 。gcc 优 
化 器 通过 内 联 do_block 函数 消除 函数 调用 指令 产生 的 开销 


图 5-22 显示 对 三 个 数组 分 块 访问 的 情况 。 只 考虑 容量 失效 ， 被 访问 的 总 的 存储 器 字数 为 
2NYBLOCKSIZE + N? 次 。 这 个 数量 是 关于 BLOCKSIZE 因子 的 改进 。 因 此 ， 分 块 技术 同时 利 
用 了 空间 局 部 性 和 时 间 局 部 性 ， 其 中 访问 A 利用 了 空间 局 部 性 ， 访 问 B 利用 了 时 间 局 部 性 。 


j k j 
全 让 全 放 1 丰 人 




















图 5-22 当 BLOCKSIZE=3 时 ,数组 C、A 和 B 的 访问 时 间 。 注 意 ， 与 图 5-20 相反 ， 访 问 的 元 素 减少 了 


虽然 我 们 的 目标 是 降低 cache 缺失 率 ， 但 分 块 技术 也 可 以 用 来 帮助 进行 寄存 器 分 配 。 通 
过 采用 较 小 的 分 块 ， 使 得 一 个 块 可 以 容纳 在 寄存 器 中 ,程序 中 的 load 和 store 操作 可 以 减 到 
最 少 ， 从 而 再 度 提高 性 能 。 

图 5-23 给 出 了 cache 分 块 技术 对 未 优化 的 DGEMM 性 能 的 影响 ， 其 中 矩阵 尺寸 逐渐 增 
加 ， 甚 至 不 能 在 cache 中 完全 容纳 这 三 个 矩阵 。 对 于 最 大 的 矩阵 尺寸 ， 未 优化 DGEMM 的 性 
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能 下 降 一 半 。 即 使 矩阵 尺寸 为 960 x 960， 或 者 比 第 3 章 和 第 4 章 中 32 x 32 的 矩阵 大 了 900 
倍 时 ， 采 用 cache 分 块 的 DEGMM 性 能 仅 下 降 了 不 到 10%。 


加 32x32 加 160x160 目 480x480 日 960x960 














GFLOPS 





未 优化 分 块 


图 5-23 未 优化 的 DGEMM (图 3-22 ) 和 采用 cache 分 块 技术 的 DGEMM (图 5-21 ) 的 性 能 比较 。 在 
采用 cache 分 块 技术 时 ， 甜 阵 尺寸 由 32x 32 (三 个 矩阵 均 放 入 cache 中 ) 到 960 x 960 变化 


渍 8 策 多 级 cache 会 产生 很 多 复杂 情况 。 首 先 ， 存 在 多 种 不 同 
类 型 的 缺失 以 及 相应 的 缺失 率 。 在 5.4.4 节 的 例子 中 ， 我 们 看 到 了 一 
级 cache 缺失 率 以 及 全 局 缺失 率 (global miss rate)， 即 在 所 有 级 
cache 中 都 缺失 的 访问 比率 。 同 时 二 级 cache 也 有 缺失 率 ， 即 二 级 
cache 所 有 缺失 次 数 除 以 其 访问 次 数 。 这 个 缺失 率 称 为 二 级 cache 的 | 局 部 缺失 率 : 在 多 级 cache 
局 部 缺失 率 (local miss rate)。 由 于 一 级 cache 过 滤 了 一 些 访问 ， 特 | 
别 是 那些 具有 较 好 空间 局 部 性 和 时 间 局 部 性 的 访问 ， 这 就 使 得 二 级 
cache 的 局 部 缺失 率 要 大 大 高 于 全 局 缺失 率 。 在 5.4.4 节 的 例子 中 ， 二 级 cache 的 局 部 缺失 率 
为 0.5%/2% = 25% ! 幸运 的 是 ， 全 局 缺失 率 决定 了 访问 主 存 的 频 度 。 
有 髓 对 于 乱 序 处 理 器 ( 见 第 4 章 )， 由 于 其 在 缺失 时 仍 能 执行 指令 ， 因 而 性 能 更 加 复 
杂 。 我 们 使 用 每 条 指令 缺失 数 来 代替 指令 缺失 率 和 数据 缺失 率 ， 公 式 如 下 : 
存储 器 阻塞 周期 数 ”缺失 数 
指令 数 。 ”指令 数 
计算 重生 的 缺失 延迟 没有 通用 的 方法 ， 因 此 对 乱 序 处 理 器 存储 器 层次 结构 进行 评估 需要 模 
拟 处 理 器 和 存储 器 层次 结构 。 只 有 观测 到 每 次 缺失 时 处 理 器 的 执行 情况 ， 我 们 才能 知道 缺失 时 
处 理 器 是 停顿 下 来 等 待 数据 还 是 简单 地 在 执行 其 他 工作 。 一 个 指导 原则 是 处 理 器 通常 会 隐藏 在 
一 级 cache 缺失 而 在 二 级 cache 命中 时 的 那 部 分 缺失 代价 ， 但 很 少 隐藏 二 级 cache 的 缺失 代价 。 
了 清关 算法 性 能 的 挑战 在 于 对 相同 的 结构 采用 不 同 的 实现 方法 ， 包 括 cache 容量 、 相 联 
度 、 块 大 小 以 及 cache 的 数量 ， 都 会 使 得 存储 器 层次 结构 变 得 多 样 化 。 为 了 应 对 这 些 变化 ， 
近来 一 些 数值 库 将 它们 的 算法 变 得 参数 化 ,通过 在 运行 时 搜索 参数 空间 来 找到 特定 计算 机 上 
的 最 佳 组 合 。 这 种 方法 称 为 自动 调谐 (autotuning)。 


全 局 缺失 率 : 在 多 级 cache 
的 所 有 级 中 都 缺失 的 访问 
的 比率 








X (总 的 缺失 延迟 - 重 司 的 缺失 延 六 ) 
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5.4.6 小 结 


本 节 集 中 讨论 了 四 个 问题 : cache 性 能 ， 利 用 相 联 度 来 降低 缺失 率 ， 利 用 多 级 cache 结 
构 来 降低 缺失 代价 ， 以 及 采用 软件 优化 技术 提高 cache 的 有 效 性 。 

存储 系统 对 程序 执行 时 间 有 着 重要 影响 。 存 储 器 阻塞 时 钟 周期 数 取决 于 缺失 率 和 缺失 代 
价 。 在 5.8 节 中 将 会 看 到 ， 我 们 面临 的 挑战 是 如 何 降低 这 些 因 素 中 的 一 个 而 不 会 影响 到 存储 
器 层次 结构 中 的 其 他 关键 因素 。 

为 了 降低 缺失 率 ， 我 们 对 相 联结 构 的 放置 机 制 进行 研究 。 这 些 机 制 通过 在 cache 中 更 灵 
活 地 放置 数据 块 以 降低 缺失 率 。 全 相 联 机 制 允许 将 块 放 在 cache 中 的 任何 位 置 ， 但 是 仍然 需 
要 查找 cache 中 的 每 一 块 以 找到 所 需要 的 块 。 较 高 的 成 本 使 得 大 容量 全 相 联 cache 的 实现 不 
切实 际 。 组 相 联 cache 是 一 种 可 行 的 选择 ， 我 们 只 需要 在 索引 唯一 选中 的 组 中 进行 查找 。 组 
相 联 cache 缺失 率 更 高 ， 但 是 访问 速度 更 快 。 使 用 何 种 相 联 度 能 达到 最 佳 性 能 不 仅 取决 于 技 
术 本 身 ， 还 取决 于 实现 的 细节 。 

我 们 探讨 了 多 级 cache 技术 ， 通 过 使 用 一 个 大 的 二 级 cache 来 处 理 一 级 cache 的 缺失 ， 
从 而 降低 了 缺失 代价 。 二 级 cache 已 经 逐渐 普遍 ， 因 为 设计 者 发 现 由 于 硅 的 局 限 以 及 高 时 钟 
频率 的 要 求 ， 一 级 cache 的 容量 已 经 无 法 更 大 了 。 二 级 cache 的 容量 通常 是 一 级 cache 的 10 
倍 甚至 更 多 ， 可 以 处 理 很 多 一 级 cache 缺失 引起 的 访问 。 在 这 些 情况 下 ， 缺 失 代 价 就 是 二 级 
cache 的 访问 时 间 (通常 小 于 10 个 处 理 器 周期 ) 而 不 是 主 存 访问 时 间 (通常 大 于 100 个 处 理 
器 周期 )。 和 相 联 度 的 考虑 相似 ， 在 二 级 cache 容量 和 访问 时 间 之 间 的 权衡 取决 于 实现 过 程 中 
的 很 多 方面 。 

最 后 ， 针 对 存储 器 层次 对 性 能 影响 的 重要 性 ， 我 们 讨论 了 如 何 改 进 算法 从 而 改善 对 
cache 的 操作 ， 处 理 大 数组 时 ， 分 块 是 一 种 重要 的 技术 。 


5.5 ”可 信和 存储 器 层次 结构 


本 章 前 面 所 有 的 讨论 隐 含 的 一 点 是 存储 器 层次 结构 不 会 遗忘 >。 然 而 不 可 信 的 存储 系统 ， 
即使 速度 再 快 也 不 具有 吸引 力 。 正 如 第 1 章 所 述 ， 实 现 谭 葡 性 ( dependability) “的 一 个 有 效 
方法 就 是 元 余 。 本 节 首 先 定义 与 失效 (failure) 相关 的 术语 和 度量 标准 ， 然 后 讨论 如 何 通过 
元 余 构 造 可 信 的 存储 器 。 


5.5.1 失效 的 定义 


假定 有 对 某 类 服务 的 需求 ， 针 对 该 需求 用户 可 以 看 到 一 个 系统 在 交付 的 服务 的 两 种 状 
态 之 间 切 换 : 

1. 服务 完成 (service accomplishment): 交付 的 服务 与 需求 相符 。 

2. 服务 中 断 (service interruption): 交付 的 服务 与 需求 不 符 。 

失效 导致 状态 1 到 状态 2 的 转换 ， 而 由 状态 2 到 状态 1 的 转换 过 程 称 为 恢复 ( resto- 
ration)。 失 效 可 以 是 永久 性 的 ， 也 可 以 是 间歇 性 的 。 后 者 更 为 复杂 ， 因 为 当 一 个 系统 在 两 个 





名 原 书 采用 forget 一 词 ， 可 理解 为 存储 器 的 内 容 不 会 出 错 或 丢失 。 译 者 注 

晶 在 第 1 章 中 , 我 们 将 8 个 伟大 思想 之 一 的 dependability 翻译 为 “可 靠 性 ". 请 读者 注意 。 一 一 译 者 注 

旧 在 cache 部 分 的 讨论 中 ,失效 指 缺失 ， 即 miss， 这 里 失效 指 failure， 读 者 需要 根据 上 下 文 语 境 来 理解 。 
一 一 详 者 注 
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状态 间 摇摆 时 ， 问 题 的 诊断 更 为 困难 。 而 永久 性 失效 的 诊断 要 容易 许多 。 

这 种 定义 将 引出 两 个 相关 术语 : 可 靠 性 和 可 用 性 。 

可 靠 性 (reliability) 是 对 一 个 系统 或 模块 从 某 个 参考 点 开始 持续 提供 服务 的 度量 ， 或 者 说 某 
个 参考 点 开始 到 失效 的 时 间 。 因 此 ， 平 均 无 故障 时 间 (Mean Time To Failure，MTTF) “是 一 种 可 
靠 性 度量 方法 。 与 之 相关 的 一 个 术语 是 年 失效 率 ( Annual Failure Rate，AFR)， 指 在 给 定 MTTF 
情况 下 ， 在 一 年 内 预期 的 器 件 失效 比例 。MTTF 变 大 可 能 会 产生 误导 ， 因 此 AFR 更 为 直观 。 


| 例题 | 磁盘 的 MTTF 和 AFR » 
目前 一 些 磁盘 的 MTTF 达到 1 000 000 小 时 ， 大 约 是 1 000 000/ (365x24)= 114 年 ， 

看 起 来 这 些 磁 盘 永 远 不 会 失效 。 运 行 搜索 引擎 等 因特网 服务 的 仓储 式 计 算 机 可 能 有 50 000 台 

服务 器 ， 假 定 每 台 服 务 器 有 两 块 磁盘 ， 使 用 AFR 计算 每 年 预期 会 有 多 少 块 磁盘 失效 。 

| 答案 | 一 年 有 365 x 24 = 8760 小 时 。1 000 000 小 时 的 MTTE 意味 着 AFR 为 8760/1 000 000 = 

0.876%。 由 于 系统 中 有 100 000 块 磁盘 ， 因 此 每 年 预期 有 876 块 磁盘 失效 ， 即 平均 每 天 有 超 

过 两 块 磁盘 失效 ! 赤 


服务 中 断 使 用 平均 修复 时 间 ( Mean Time To Repair，MTTR) 来 度量 。 平 均 失 效 间隔 
时 间 (Mean Time Between Failure，MTBF) = MTTF + MTTR。 虽 然 MTBF 广泛 应 用 , 但 
MTTF 是 一 个 更 为 合适 的 术语 。 可 用 性 (availability) 是 根据 系统 在 正常 工作 和 中 断 之 间 的 交 
替 ， 对 系统 服务 能 力 的 一 种 度量 。 可 用 性 可 以 量化 为 ; 
MTTF 
(MTTF+MTTR) 
需要 注意 的 是 ， 可 靠 性 和 可 用 性 是 可 以 量化 的 ， 而 可 信 性 (dependability) 是 不 可 量化 
的 。 与 增加 MTTEF 类 似 ， 减 少 MTTR 可 以 提高 可 用 人 性。 例如， 失效 检测 、 诊 断 和 修复 工具 
可 以 减少 故障 维修 花费 的 时 间 ， 从 而 提高 可 用 性 。 
我 们 希望 系统 具有 很 高 的 可 用 性 。 一 种 速记 法 是 每 年 “9 的 可 用 性 ”的 数量 。 例 如 ,一 
台 很 好 的 因特网 服务 器 可 提供 4 个 或 5 个 “9 的 可 用 性 ” 。 一 年 有 365 天 ， 即 365 x 24x 60 = 
526 000 分 钟 ， 速 记 表 示 如 下 : 
1 个 9: 90% => 36.5 天 维修 /年 
2 个 9: 99% => 3.65 天 维修 / 年 
3 个 9: 99.9% => 526 分 钟 维修 / 年 


4 个 9: 99.99% ”=> 52.6 分 钟 维修 /年 
5 个 9: 99.999% ”=> 5.26 分 钟 维修 /年 











可 用 性 = 


以 此 类 推 。 

提高 MTTF， 可 以 通过 提高 器 件 的 质量 实现 ， 也 可 以 通过 设计 能 够 在 器 件 失效 的 情况 下 
继续 工作 的 系统 实现 。 由 于 一 个 器 件 的 失效 不 一 定 会 导致 系统 的 失效 ， 因 此 需要 根据 上 下 文 
定义 失效 。 为 了 使 区 分 更 为 明确 ， 术 语 故 障 ( fault) 用 来 表示 一 个 器 件 的 失效 。 改 进 MTTF 
有 如 下 三 种 方式 : 

@ 故障 避免 (fault avoidance): 通过 合理 构建 系统 来 避免 故障 的 出 现 。 

日 故障 容忍 (fault tolerance): 采用 宛 余 措施 ， 当 发 生 故障 时 ， 通 过 宛 余 措施 保证 系统 仍 

然 正常 工作 。 


加 failure 意 为 失效 、 故 障 ， 这 里 我 们 译 为 “故障 ",“ 平 均 无 故障 时 间 ” 是 更 为 通用 的 用 法 。 一 一 译 者 注 
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e 故障 预测 (fault forecasting): 器 油 故 障 的 存在 和 产生 ， 在 允许 器 件 失效 前 对 其 进行 替换 。 
5.5.2 纠 1 检 2 汉 明 码 (SEC/DED) 


Richard Hamming 发 明了 一 种 广泛 应 用 于 存储 器 的 元 余 技 术 ， | 错误 检测 编码 :一 种 编码 
并 因此 获得 了 1968 年 的 图 灵 奖 。 为 了 理解 元 余 码 的 构造 ， 我 们 首 。 | 方式, 能够 检测 出 数据 中 
先 讨论 正确 的 二 进 制 数 之 间 有 多 “ 近 ” 。 所 谓 汉 明 距离 (Hamming | 有 一 个 鱼 诬 ， 但 不 能 殴 定 
distance) 是 指 任意 两 个 正确 的 二 进 制 数 间 对 应 位 置 不 同 的 位 的 数量 。 | 和 并 人， 四 业 
例如 ，011011 和 001111 的 距离 为 2。 在 编码 时 ， 如 果 码 字 之 间 的 最 
小 距离 为 2， 且 其 中 有 1 位 出 错 ， 那 么 将 会 发 生 什么 ? 这 将 会 使 一 个 有 效 码 字 转 化 为 一 个 天 
效 码 字 。 因 此 ， 如 果 能 够 检测 出 一 个 码 字 是 否 正确 ， 我 们 就 能 够 检测 出 1 位 的 错误 ， 称 为 1 
位 错误 检测 编码 。° 

汉 明 使 用 奇偶 校 验 码 ( parity code) 检测 错误 。 奇 侦 校 验 码 计算 码 字 中 1 的 数量 是 奇数 个 
还 是 偶数 个 。 当 一 个 字 写 人 存储 器 时 ， 奇 侦 校 验 位 也 被 写 人 1 代表 奇数 ，0 代表 偶数 )。 这 
就 是 说 ，N+ 1 位 码 字 中 1 的 个 数 永远 为 偶数 。 然 后 ， 当 该 字 被 读 出 时 ， 校 验 码 也 被 读 出 并 进 
行 检测 。 如 果 根据 存储 内 容 计算 出 的 校 验 码 与 保存 的 奇偶 校 验 位 不 符 ， 则 说 明 产 生 了 错误 。 


| 例题 | . 

计算 十 进 制 数 31 对 应 的 8 位 二 进 制 数 的 奇偶 性 ， 并 写 出 存储 器 中 的 表示 形式 。 假 设 奇 
偶 校 验 位 在 最 右边 ， 并 且 假 定 存 储 器 中 最 高 有 效 位 发 生 了 翻转 ， 然 后 将 其 读 回 。 请 问 能 否 检 
测 到 错误 ”如 果 最 高 两 位 同时 翻转 呢 ? 
| 答案 | 3le 的 二 进 制 形式 为 00011111w。， 有 5 个 1。 为 了 使 编码 后 码 字 中 的 1 为 偶数 ， 需 
要 向 校 验 位 写 人 1， 也 就 是 00011111lwo。 如 果 最 高 位 发 生 翻转 ， 读 回 的 将 是 100111111w。， 
其 中 有 7 个 1。 由 于 我 们 期 望 码 字 为 偶 性 ,但 是 计算 结果 却 是 奇 性 ， 因 此 将 产生 一 个 错误 信 
号 。 如 果 最 高 两 位 同时 发 生 翻转 ， 则 得 到 110111111w。， 具 有 8 个 1 或 者 说 具有 偶 性 ， 此 时 
不 会 产生 错误 信号 。 - 

如 果 产 生 了 两 位 错误 ， 那 么 码 字 的 奇偶 性 不 变 ， 因 此 一 位 奇偶 校 验 机 制 无 法 检测 到 这 种 
错误 。( 实 际 上 , 一 位 奇偶 校 验 机 制 可 以 检测 到 任意 奇数 个 错误 ,但 实际 情况 是 ， 出 现 三 位 
错 的 概率 远 小 于 出 现 两 位 错 的 概率 ， 因 此 一 位 奇偶 校 验 码 仅 限于 检测 1 位 错 。) 

当然 ， 奇 偶 校 验 码 不 能 纠正 错误 ， 而 汉 明 希 望 既 能 检 错 又 能 纠 错 。 如 果 我 们 采用 的 编码 
最 小 距离 为 3， 那么 任意 一 个 发 生 1 位 错 的 码 字 与 正确 码 字 之 间 的 距离 要 小 于 其 与 其 他 有 效 
码 字 的 距离 。 汉 明 提出 了 一 种 易于 理解 的 映射 方法 ， 将 数据 映射 到 距离 为 3 的 码 字 ， 这 种 编 
码 方法 称 为 汉 明 纠 错 码 (Hamming Error Correction Code，Hamming ECC) (以 致敬 汉 明 )。 我 
们 采用 额外 的 奇偶 校 验 位 以 确定 单个 错误 的 位 置 。 下 面 是 计算 汉 明 纠 错 码 的 步 又 : 

1. 对 数据 部 分 从 左 到 右 由 1 开始 依次 编号 ， 与 传统 的 从 最 右 开始 由 0 开始 编号 的 做 法 相反 。 

2. 将 所 有 位 置 为 2 的 整数 次 寡 的 位 标记 为 奇偶 校 验 位 (位置 1，2，4，8，16，… )。 

3. 其 他 位 置 用 作 数据 位 (位 置 3,，5, 6, 7, 9, 10, 11, 12, 13, 14, 15, …)。 

4. 奇偶 校 验 位 的 位 置 决定 了 被 检查 的 数据 位 的 序列 为 (图 5-24 用 图 形 方式 进行 了 说 明 ); 

e 校 验 位 1 ( 000lwo) 检查 第 1，3，5，7，9，11，… 位 ， 这 些 位 二 进 制 编号 的 最 右 
边 一 位 均 为 1 (0001wo，001ltwo,，0101wo, O01llliwo, 100ltwo,10l1lwo, *… )。 








日 或 称 1 位 检 错 码 - 一 一 译 者 注 
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e 校 验 位 2 ( 0010wo) 检查 第 2，3，6，7，10，11，14，15，… 位 ,这 些 位 二 进 制 编 
号 的 最 右边 起 第 二 位 均 为 1。 
e 校 验 位 4 (0100w。) 检查 第 4 一 7，12 一 15，20 一 23，… 位 ， 这 些 位 二 进 制 编号 
的 最 右边 起 第 三 位 均 为 1。 
e 校 验 位 8 ( 1000w。) 检查 第 8 一 15，24 一 31，40 一 47，… 人 位， 这些 位 二 进 制 编号 
的 最 右边 起 第 四 位 均 为 1。 
注意 ， 每 个 数据 位 都 被 至 少 两 个 奇偶 校 验 位 覆盖 。 
5. 设置 奇偶 校 验 位 ， 对 各 组 进行 偶 校 验 。 


位 的 位 置 RE 
pT 






































图 5-24 $8 位 数据 位 的 汉 明 编码 ， 包 括 奇 偶 校 验 位 、 数 据 位 及 校 验 位 获 盖 范围 


看 起 来 如 同 魔术 一 样 ， 通 过 查看 校 验 位 可 以 确定 数据 位 是 否 出 错 。 采 用 图 5-24 中 的 12 
位 编码 ， 如 果 4 个 校 验 位 计算 出 (ps，ps，pz，pi) 为 0000iwe， 那 么 没有 发 生 错误 。 但 是 ， 如 
果 是 1010w。， 也 就 是 10e 时 ， 汉 明 纠 错 码 告诉 我 们 第 十 位 ( d6) 出 错 了 。 由 于 是 二 进 制 数 ， 
[3 引 我 们 只 需 将 第 十 位 取 反 以 进行 纠 错 。 


| 例题 | 的 
假定 某 字 节 数据 为 10011010w。。 首 先 写 出 对 应 的 汉 明 纠 错 码 ， 然 后 把 该 字 节 数据 第 10 
位 取 反 ， 说 明 纠 错 码 如 何 找到 并 纠正 该 位 错误 。 
| 答案 | 空 出 校 验 位 位 置 ，12 位 码 字 为 _1_001_1010。 
位 置 1 检查 第 1、3、5、7、9、11 位 , 如 _1 001 1010 所 示 。 为 使 该 组 为 偶 性 ， 我 们 
应 当 把 第 1 位 填 0。 
位 置 2 检 查 第 2、3、6、7、10、 11 位， 即 0_1 001 1010 或 为 奇 性 ， 我 们 在 第 2 位 填 人 1。 
位 置 4 检查 第 4、5、6、7、12 位 ， 即 011 001_1010， 所 以 我 们 在 第 4 位 填 和 人 1。 
位 置 8 检查 第 8、9、10、11、12 位 ， 即 0111001_1010， 所 以 我 们 在 第 8 位 填 人 0。 
最 终 得 到 的 码 字 为 011100101010。 把 数据 位 第 10 位 取 反 变 成 011100101110。 
校 验 位 1 为 0(011100101110 有 4 个 1， 为 偶 性 ， 故 该 组 无 错误 )。 
校 验 位 2 为 1 (011100101110 有 5 个 1， 为 奇 性 ， 故 该 组 某 个 位 置 上 有 错误 ) 
校 验 位 4 为 1 (011100101110 有 两 个 1， 为 偶 性 ， 故 该 组 无 错误 )。 
校 验 位 8 为 1 (011100101110 有 3 个 1， 为 奇 性 ， 故 该 组 某 个 位 置 上 有 错误 )。 
校 验 位 2 和 8 不 正确 。 因 为 2+ 8 = 10, 第 10 位 肯定 是 错 的 。 因 此 ， 我 们 将 其 翻转 为 
011100101010， 即 完成 了 纠 错 。 本 


汉 明 并 没有 止步 于 1 位 纠 错 码 。 以 增加 1 位 为 代价 ， 可 以 让 码 字 中 的 最 小 汉 明 距离 变 为 


4。 这 就 意味 着 我 们 可 以 纠正 1 位 错 并 检测 到 2 位 错 。 该 方法 增加 了 1 位 奇偶 校 验 位 ， 对 整 
个 字 进 行 计算 校 验 。 以 4 位 数据 字 为 例 ， 只 需要 7 位 就 能 完成 1 位 错 检 测 。 计 算出 汉 明 奇偶 
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校 验 位 H (pi, pz, pz)， 这 里 仍然 采用 偶 校 验 ， 最 后 计算 出 整个 字 的 偶 校 验 位 pa: 
下 


PP d Pp, d, d, d, ps 


上 述 用 于 纠正 1 位 错 并 检测 2 位 错 的 算法 仍 像 之 前 那样 先 计 算出 ECC 码 组 (H) 的 奇偶 性 ， 
然后 再 计算 全 组 的 奇偶 校 验 位 ps。 以 下 是 可 能 出 现 的 四 种 情况 : 

eH 为 偶 并 且 pa 为 偶 ， 表 明 没 有 错误 发 生 。 

。 有 H 为 奇 并 上 且 ps 为 奇 ,表明 出 现 了 一 位 可 纠正 错误 。( 当 出 现 1 位 错时 ，ps 应 当 为 奇 。) 

e 日 为 偶 并 且 ps 为 奇 ， 表明 出 现 的 仅仅 是 ps， 因此 将 ps 取 反 即 可 。 

。 有 HH 为 奇 并 且 ps 为 偶 ， 表 明 出 现 了 两 位 错 。( 当 出 现 两 位 错时 ，ps 应 当 为 偶 。) 

纠 1 位 错 / 检 2 位 错 (SEC/DED) 的 技术 现在 广泛 应 用 于 服务 器 的 内 存 中。 方便 的 是 ，8 
字 节 的 数据 块 做 SEC/DED 时 只 需要 恰好 一 个 字 节 的 额外 开销 。 这 也 是 为 什么 很 多 DIMM( 双 
列 直 插 式 存储 模块 ) 宽度 为 72 位 的 原因 。 

注册 为 了 计算 出 SEC 需要 的 位 数 ， 假 定 已 表示 校 验 位 的 总 位 数 ，d 表 示 df+ 己 位 字 中 
数据 位 的 位 数 。 如 果 pp 个 纠 错位 指示 错误 位 ( 码 字 长 度 为 p+ qd 的 情况 下 )， 再 加 上 没有 出 现 
错误 的 一 种 情况 ,我们 需要 : 

2?p+d+1 位 ,因此 p 宇 log (p+d+1) 

例如 ，8 位 数据 意味 着 d=8,， 并 且 2? 宇 p+8+1， 所 以 p=4。 类 似 的 ， 数据 长 度 为 16 位 时 
P=5，32 位 时 p=6，64 位 时 p=7， 以 此 类 推 。 

| 清 解 | 在 大 型 系统 中 ， 出 现 多 位 错 的 概率 以 及 一 个 宽 内 存 芯 片 完全 失效 的 概率 变 得 显著 
起 来 。 为 解决 这 一 问题 ,IBM 引进 了 一 种 叫 作 chipkill 的 技术 ,很 多 大 型 系统 都 采用 了 该 技 
术 (Intel 称 他 们 的 版 本 为 SDDC)。chipkill 技术 本 质 上 类 似 于 磁盘 阵列 中 采用 的 RAID 技术 
( 见 5.11 节 )， 将 数据 和 ECC 信息 分 散 开 来 ， 因 此 当 一 个 宽 内 存 芯片 完全 失效 时 ， 可 以 通过 
其 他 内 存 芯 片 中 的 内 容 对 缺失 的 内 容 进 行 重建 。 假 定 现 有 一 个 由 10 000 个 处 理 器 构成 的 集群 
(cluster)， 每 个 处 理 器 配备 4GiB 内 存 ，IBM 针对 为 期 三 年 的 运行 时 间 计 算出 了 以 下 不 可 恢复 
内 存 错误 出 现 的 比率 : 

@ 仅 采用 奇偶 校 验 一 一 大 约 90 000 次 不 可 恢复 (或 者 不 可 检测 ) 错误 ， 也 就 是 每 17 分 

钟 就 出 现 1 次 。 
e 仅 采 用 SEC/DED 一 一 大 约 3500 次 ， 也 就 是 每 7.5 小 时 出 现 1 次 不 可 检测 或 者 不 可 恢 
复 的 错误 。 

e 采用 chipkill 一 一 6 次 ,或 者 说 每 两 个 月 出 现 1 次 不 可 检测 或 不 可 恢复 的 错误 。 
因此 ，chipkill 成 为 数据 仓库 级 别 的 计算 机 的 一 个 重要 需求 。 

俩 钴 | 虽然 存储 器 系统 出 现 1 位 错 或 者 2 位 错 的 情况 比较 典型 ， 但 是 网 络 系统 中 可 能 会 
出 现 突 发 型 的 位 错误 。 解 决 该 问题 的 一 个 方法 是 循环 元 余 校 验 (cyclic redundancy check)。 对 
于 一 个 具有 位 的 字 块 ， 发 送 端 生 成 一 个 n- 上 位 长 度 的 帧 (frame) 校 验 序列 。 最 终 发 送 严 位 
序列 ， 并 且 该 序列 对 应 的 数值 可 以 被 某 个 数 整 除 。 接 收 端 用 该 整数 去 除 接收 到 的 帧 。 如 果 余 
数 为 0， 就 认为 没有 发 生 错误 。 如 果 余 数 不 为 0， 接 收 端 丢弃 收 到 的 消息 ， 并 通知 发 送 端 重新 
发 送 。 从 第 3 章 你 可 以 猜测 到 ， 对 于 某 些 二 进 制 数 ， 可 以 利用 移 位 寄存 器 方便 地 完成 除法 运 
算 ， 这 使 得 即便 在 硬件 更 为 昂贵 的 时 代 ，CRC 校 验 码 也 可 以 被 广 为 采 用 。 更 进一步 ， 里 德 一 
索 罗 蒙 ( Reed-Solomon) 编码 使 用 佑 罗 瓦 ( Galois) 字段 来 纠正 多 位 传输 错误 ， 数 据 被 看 作 多 
项 式 系数 ， 校 验 码 空间 被 看 作 多 项 式 的 值 。 里 德 - 索 罗 蒙 计 算 复 杂 度 远 远 高 于 二 进 制 除法 ! 
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5.6 虚拟 机 

虚拟 机 ( Virtual Machine，VM) 最 早出 现 于 20 世纪 60 年 代 中 期 ， 多 年 来 一 直 是 大 型 机 
中 的 重要 组 成 部 分 。 尽 管 在 20 世纪 80 年 代 和 90 年 代 单 用 户 计算 机 时 代 中 被 忽略 ， 但 虚拟 
机 最 近 又 受到 关注 ， 原 因 是 : 

。 在 现代 计算 机 系统 中 ， 隔 离 和 安全 的 重要 性 持续 增长 。 

。 标准 操作 系统 在 安全 性 和 可 靠 性 方面 存在 缺陷 。 

。 在 多 个 不 相关 的 用 户 间 共享 一 台 计 算 机 ， 尤 其 是 在 云 计 算 中 。 

。 过 去 几 十 年 里 处 理 器 速度 大 幅 增长 ， 使 得 虚拟 机 引起 的 开销 可 为 人 们 接受 。 

最 广泛 的 虚拟 机 的 定义 包括 基本 上 所 有 的 仿真 方法 ， 这 些 方法 提供 一 个 标准 的 软件 接 
口 ， 如 Java 虚拟 机 。 本 节 关 注 虚拟 机 在 二 进 制 指令 集体 系 结构 (ISA) 的 层次 上 提供 的 一 个 
完整 的 系统 级 环境 。 尽 管 一 些 虚 拟 机 运行 与 本 地 硬件 不 同 的 ISA， 但 这 里 我 们 假设 它们 都 能 
与 硬件 匹配 。 这 样 的 虚拟 机 被 称 为 系统 虚拟 机 ( system virtual machine)， 如 IBM VM/370、 
VirtualBox 、VMware ESX Server 以 及 Xen。 

系统 虚拟 机 让 用 户 觉 得 自己 在 独占 使 用 包括 操作 系统 副本 在 内 的 整个 计算 机 。 一 台 运 行 
多 个 虚拟 机 的 计算 机 可 以 支持 多 个 不 同 的 操作 系统 。 在 传统 的 平台 上 ， 一 个 单独 的 操作 系统 
“拥有 ”所 有 的 硬件 资源 ， 但 是 通过 使 用 虚拟 机 ， 多 个 操作 系统 可 共享 硬件 资源 。 

支持 虚拟 机 的 软件 被 称 为 虚拟 机 监视 器 ( Virtual Machine Monitor，VMM) 或 者 管理 程 
序 (hypervisor)，VMM 是 虚拟 机 技术 的 核心 。 底 层 的 硬件 平台 称 为 主机 (host)， 其 资源 被 客 
户 ( guest) 虚拟 机 共享 。 VMM 决定 如 何 将 虚拟 资源 映射 到 物理 资源 : 物理 资源 可 能 是 分 时 
共享 、 划 分 ， 甚 至 通过 软件 模拟 的 。VMM 比 传统 的 操作 系统 小 很 多 ， 一 个 VMM 的 隔离 部 
分 可 能 只 有 10 000 行 代码 。 

尽管 我 们 所 感 兴趣 的 是 虚拟 机 所 提供 的 保护 功能 ， 但 是 虚拟 机 还 有 另 两 个 具有 重大 商业 
意义 的 优势 : 

e 管理 软件 ， 虚 拟 机 提供 一 个 可 以 运行 完整 软件 栈 的 抽象 ， 甚 至 包含 像 DOS 这 样 的 较 
老 的 操作 系统 。 虚 拟 机 典型 的 应 用 包括 : 一 些 虚拟 机 运行 旧 的 操作 系统 ， 多 数 虚 拟 机 
运行 当前 稳定 的 操作 系统 ， 少 数 虚拟 机 用 来 测试 下 一 代 操 作 系统 版 本 。 
管理 硬件 : 需要 多 个 服务 器 的 一 个 原因 是 为 了 让 每 个 应 用 程序 运行 在 一 台 单独 的 拥有 
兼容 操作 系统 的 计算 机 上 ， 因 为 这 种 分 隔 能 够 提高 可 信 性 。 虚 拟 机 允许 这 些 独立 的 软 
件 栈 在 独立 运行 的 同时 共享 硬件 ， 从 而 合并 了 服务 器 的 数量 。 另 一 个 例子 是 ,一些 
VMM 支持 将 一 个 正在 运行 的 虚拟 机 移植 到 另 一 台 不 同 的 计算 机 上 ， 从 而 可 以 平衡 负 
载 或 在 硬件 故障 时 实施 迁移 。 

全 王 马 过 Web 服务 ( Amazon Web Service，AWS) 在 其 云 计算 平台 中 使 
用 虚拟 机 提供 EC2s 主 要 有 五 个 原因 : 

e 在 用 户 共享 同一 个 服务 器 时 ，AWS 可 提供 用 户 间 的 保护 。 

@ 简化 了 仓储 式 计算 机 上 软件 的 分 布 。 用 户 安装 一 个 配置 了 合适 软件 的 虚拟 机 映 象 ， 

AWS 将 其 分 布 到 用 户 希望 使 用 的 所 有 实例 上 。 
e@ 当 用 户 完 成 工作 时 ,用户 (和 AWS) 可 以 “ 杀 死 ”一 个 VM 来 控制 资源 的 使 用 。 
日 虚拟 机 隐藏 了 运行 用 户 应 用 软件 的 硬件 的 特性 ， 这 意味 着 AWS 可 以 在 继续 使 用 旧 服 


日 亚马逊 弹 性 计算 云 (Elastic Compute Cloud, EC2) 是 一 个 允许 使 用 者 租用 云端 电脑 运行 所 需 应 用 的 系 
统 。 一 一 译 者 注 
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务 器 的 同时 引入 更 有 效 的 新 服务 器 。 用 户 希望 所 获得 的 机 器 性 能 与 “EC2 计算 单元 ” 
匹配 ，AWS 将 其 定义 为 : 提供 与 1.0-1.2GHz 2007 AMD Opteron 或 2007 Intel Xeon 
处 理 器 相等 的 CPU 能力。 依据 畏 引 刍 ， 新 服务 器 显然 能 够 比 旧 服 务 器 提供 更 多 的 
EC2 计算 单元 ,但 只 要 是 经 济 合算 的 ，AWS 仍 可 以 继续 出 租 旧 服务 器 。 
虚拟 机 监视 器 可 以 控制 一 个 VM 使 用 处 理 器 、 网 络 和 磁盘 空间 的 比率 ， 这 就 使 得 
AWS 可 以 在 相同 的 底层 服务 器 上 提供 许多 价格 不 同 的 节点 类 型 。 例 如 ，2012 年 时 
AWS 提供 14 种 实例 类 型 ， 从 0.08 美元 /小 时 的 小 型 标准 实例 到 3.10 美元 /小 时 的 高 
LO 四 倍 超大 实例 。 

通常 来 说 ， 处 理 器 虚拟 化 的 开销 取决 于 工作 量 。 用 户 级 处 理 器 绑 定 的 程序 没有 虚拟 化 开 
销 ， 因 为 操作 系统 很 少 被 调用 ， 因 此 所 有 程序 都 能 以 本 地 的 速度 运行 。IO 密集 型 负载 通常 
也 是 操作 系统 密集 型 的 ， 会 执行 很 多 系统 调用 和 特权 指令 ， 从 而 导致 很 高 的 虚拟 化 开销 。 另 
一 方面 ， 如 果 IO 密集 型 负载 同样 也 是 1/0 绕 定 型 的 ， 那 么 由 于 在 等 待 1/O 时 处 理 器 通常 处 
于 空闲 状态 ， 因 此 处 理 器 虚拟 化 的 开销 就 能 被 完全 掩藏 。 

开销 取决 于 需要 由 VMM 模拟 的 指令 数 以 及 每 个 模拟 所 花费 的 时 间 。 因 此 ， 假 设 客户 端 虚拟 
机 和 主机 运行 同样 的 SA， 系统 架构 和 VMM 的 目标 是 尽 可 能 在 本 地 硬件 上 直接 运行 所 有 指令 。 


5.6.1 虚拟 机 监视 器 的 要 求 


虚拟 机 监视 器 必须 做 什么 ? 它 给 客户 软件 提供 了 一 个 软件 接口 ， 它 必须 分 隔 每 个 客户 的 
状态 ， 并 且 必 须 将 自己 从 客户 端 软件 中 (包括 客户 操作 系统 ) 隔离 保护 。 定 性 的 要 求 是 : 
e 除了 性 能 相关 的 行为 或 因 多 虚拟 机 共享 而 造成 的 固定 资源 限制 以 外 ， 客 户 软件 在 虚拟 
机 上 的 运行 应 该 和 其 在 本 地 硬件 上 的 运行 完全 相同 。 
。 客户 软件 不 能 直接 改变 实际 系统 中 的 资源 分 配 。 
为 了 对 处 理 器 进行 “虚拟 化 "，VMM 必须 能 控制 一 切 一 一 访问 特权 状态 、1/JO、 异 常 以 
及 中 断 一 一 尽管 客户 虚拟 机 和 当前 运行 的 操作 系统 指示 临时 使 用 它们 。 
例如 ， 对 于 定时 器 中 断 的 情况 ，VMM 需要 挂 起 当前 正在 运行 的 客户 虚拟 机 ， 保 存 其 状 
态 ， 处 理 中 断 ， 然 后 决定 下 面 该 运行 哪个 客户 虚拟 机 ， 并 加 载 其 状态 。 依 赖 定 时 器 中 断 的 客 
户 虚拟 机 由 VMM 提供 的 一 个 虚拟 定时 器 以 及 一 个 模拟 定时 器 中 断 。 
为 了 进行 管理 ，VMM 必须 运行 在 一 个 比 用 户 虚 拟 机 (通常 运行 在 用 户 模式 ) 更 高 的 特 
权 级 别 上 ， 这 也 确保 了 任何 特权 指令 的 执行 都 需要 由 VMM 来 处 理 。 支 持 虚拟 机 的 基本 系统 
要 求 如 下 : 
e 至 少 两 个 处 理 器 模式 ， 系 统 级 和 用 户 级 。 
。 特权 级 指令 集合 只 能 在 系统 模式 下 使 用 ， 如 果 在 用 户 模式 下 执行 将 会 产生 陷入 
(trap); 所 有 系统 资源 只 能 通过 这 些 指令 控制 。 


5.6.2 ”指令 集体 系 结构 (缺乏 ) 对 虚拟 机 的 支持 


如 果 在 ISA 设计 过 程 中 考虑 到 了 虚拟 机 的 使 用 ， 那 么 减少 VMM 执行 的 指令 数 以 及 
提高 其 模拟 速度 就 会 相对 容易 。 人 允许 虚拟 机 直接 在 硬件 上 执行 的 体系 结构 被 称 为 可 虚拟 化 
(virtualizable)，IBM 370 以 及 ARMv8 就 是 如 此 。 

由 于 虚拟 机 只 是 近期 才 被 考虑 应 用 于 PC 以 及 服务 器 ， 因 此 大 部 分 指令 集 在 创建 时 都 没 
有 考虑 虚拟 化 。 这 些 指令 集 包 括 x86 和 大 部 分 RISC 结构 ， 包 括 ARMv7 以 及 MIPS。 
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由 于 VMM 必须 保证 客户 系统 只 能 和 虚拟 资源 交互 ， 因 此 传统 的 客户 操作 系统 以 用 户 
模式 程序 的 形式 运行 在 VMM 的 顶层 。 然 后 ， 如 果 客 户 操作 系统 试图 通过 特权 指令 访问 或 者 
修改 相关 硬件 资源 的 信息 一 一 例如 ， 读 / 写 一 个 能 够 使 能 中 断 的 状态 位 一 一 则 会 陷 人 VMM。 
VMM 会 进行 适当 的 调整 来 对 应 实际 资源 。 

因此 ， 如 果 任 何 指令 试图 在 用 户 模式 下 读 / 写 这 样 敏感 的 信息 ，VMM 可 以 将 其 拦截 并 
提供 一 个 如 客户 操作 系统 所 需 的 敏感 信息 的 虚拟 版 本 。 

如 果 没有 上 述 支持 ， 那 么 就 需要 采用 其 他 方法 。VMM 必须 采取 特殊 的 预防 措施 来 定位 
所 有 存在 问题 的 指令 ， 并 且 确 保 它们 能 被 客户 操作 系统 正确 执行 ， 从 而 增加 了 VMM 的 复杂 
度 ， 并 降低 了 运行 虚拟 机 的 性 能 。 


5.6.3 ”保护 和 指令 集体 系 结构 


实现 保护 需要 体系 结构 和 操作 系统 的 共同 努力 ， 但 是 随 着 虚拟 存储 器 的 广泛 使 用 ， 体 系 
结构 设计 者 需要 对 已 有 指令 集体 系 结构 中 一 些 琼 手 的 不 方便 使 用 的 细节 进行 修改 。 

例如 ，x86 指令 POPF 从 存储 器 栈 的 项 部 加 载 标志 寄存 器 。 其 中 有 一 个 标志 是 中 断 使 能 
( Interrupt Enable，IE) 标志 。 如 果 在 用 户 模式 下 运行 POPF， 它 只 是 简单 地 改变 除了 IE 以 外 
的 所 有 标志 ， 而 不 是 产生 陷 人 。 但 在 系统 模式 下 ， 它 确实 会 改变 IE 标志 。 由 于 客户 操作 系 
统 运行 在 VM 内 部 的 用 户 模式 ， 该 操作 系统 希望 看 见 IE 标志 的 改变 ， 因 此 这 将 产生 问题 。 

在 过 去 ，IBM 大 型 机 硬件 和 VMM 采用 下 面 三 个 步骤 来 改善 虚拟 机 的 性 能 : 

1. 降低 处 理 器 虚拟 化 的 开销 。 

2. 降低 出 虚拟 化 引起 的 中 断 开销 。 

3, 将 中 断交 给 相应 的 虚拟 机 ， 而 不 用 调用 VMM， 从 而 降低 中 断 开销 。 

2006 年 ，AMD 和 Intel 试图 通过 降低 处 理 器 虚拟 化 的 开销 来 解决 第 一 点 。 体 系 结构 和 
VMM 需要 经 过 多 少 代 的 改进 才能 完全 解决 上 述 三 点 ? 21 世纪 应 用 于 x86 的 虚拟 机 需要 经 过 
多 长 时 间 才 能 像 20 世纪 70 年 代 的 IBM 大 型 机 和 VMM 一 样 有 效 ? 这 些 问题 都 非常 有 趣 。 

博 解 ; ARMv8 提供 了 第 三 种 状态 (EL2)， 从 而 允许 VMM 运行 在 一 个 比 用 户 操作 系统 
更 高 的 特权 等 级 上 。 


5.7 ”虚拟 存储 器 


前 面 的 章节 阐述 了 cache 如 何 对 程序 中 最 近 访问 的 代码 和 数据 | ... 坟 计 了 一 个 打 后 ， 全 

提供 快速 访问 。 类 似 的 ， 主 存 也 可 以 充当 二 级 存储 (通常 以 磁盘 形 | 术 心 磺 吉 组 合 起 来 作为 一 

式 实现 ) 的 “ cache”。 这 项 技术 称 为 虚拟 存储 器 ( virtual memory )。 个 语 估 生硬 县 是 斑 守 汉 下 

从 历史 观点 来 说 ， 构 造 虚拟 存储 器 主要 有 两 个 动机 ; 允许 在 多 个 程 | 全 

序 之 间 有 效 且 安全 地 共享 存储 器 ， 例 如 云 计算 中 多 个 虚拟 机 所 需要 | soem 1962 

的 存储 器 ， 消 除 一 个 小 的 容量 受 限 的 主 存 对 程序 编写 造成 的 影响 。 

在 虚拟 存储 器 提出 的 50 年 后 ,第 一 点 成 为 目前 的 主要 动机 。 应 报 存储 器 : 一 各 将 主 丰 
当然 ， 为 了 允许 多 个 虚拟 机 共享 同一 个 存储 器 ， 虚 拟 机 之 间 必 | 的 六 二 全 有 全 的 ne 

须 进 行 保护 ， 确 保 每 个 程序 只 能 对 分 配给 它 的 那 部 分 主 存 进行 读 写 。 

主 存 中 只 需 保存 众多 虚拟 机 中 的 活跃 部 分 ， 就 像 cache 中 只 存放 程序 的 活路 部 分 一 样 。 因 此 ， 

局 部 性 原理 也 同样 适用 于 虚拟 存储 器 ， 虚 拟 存储 器 使 得 我 们 能 有 效 地 共享 处 理 器 和 主 存 。 
编译 时 ， 我 们 并 不 知道 哪些 虚拟 机 将 和 其 他 虚拟 机 共享 存储 器 。 事 实 上 ， 运 行 时 共享 存 


大 答 量 和 高 速度 : 开发 疗 信 器 层次 纤夫 3 了 11 





储 器 的 虚拟 机 是 动态 变化 的 。 由 于 这 种 动态 的 相互 影响 ,我 们 希望 | 物理 地 址 : 主 存储 器 中 的 
将 每 个 程序 编译 到 其 自己 的 地 址 空间 ( address space)， 即 只 有 该 程 | 地 址 。 
序 能 够 访问 的 一 系列 单独 的 存储 位 置 。 虚 拟 存储 器 实现 程序 地 址 空 
间 到 物理 地 址 ( physical address) 的 转换 。 这 种 转换 过 程 加 强 了 程序 和 
的 地 址 空间 与 其 他 虚拟 机 之 间 的 保护 (protection) 。 汪 吉 入 二 间 采 节 林 反 

使 用 虚拟 存储 器 的 第 二 个 动机 就 是 允许 单 用 户 程序 使 用 超过 主 “| 干涉 ， 不 能 故意 或 无 意 地 
存储 器 的 容量 。 以 前 ， 如 果 程 序 对 于 存储 器 来 说 太 大， 那么 要 由 程 | 读 写 其 他 进程 的 数据 。 这 
序 员 和 负责 将 其 变 成 合适 的 大 小 。 程 序 员 将 程序 切 分 ， 并 确定 其 中 互 | 尝 训 旗本 放 本 刘 作 各 人 
斥 的 部 分 。 这 些 程序 段 ( overlay) 在 执行 过 程 中 由 用 户 程序 控制 装 
人 或 换 出 ， 由 程序 员 保证 程序 不 会 访问 没有 装载 的 程序 段 ， 并 且 装 载 的 程序 段 不 会 超过 存储 
器 的 总 容量 。 程 序 段 通常 被 组 织 成 模块 ， 每 个 模块 包含 代码 和 数据 。 不 同 模块 中 的 过 程 调用 
将 导致 一 个 模块 与 另 一 个 模块 的 重 符 。 

可 以 想象 ， 这 种 责任 对 程序 员 来 说 是 很 大 的 负担 。 虚 拟 存 储 器 的 发 明 就 是 为 了 将 程序 员 
从 这 种 困境 中 解脱 出 来 ， 自 动 管理 由 主 存 (为 了 区 别 虚 拟 存储 器 ， 有 时 也 称 为 物理 存储 器 ) 
和 二 级 存储 器 5 组 成 的 两 级 存储 层 。 

尽管 虚拟 存储 器 和 cache 的 工作 原理 相同 ， 但 其 不 同 的 历史 根源 决 ee 
定 我 们 要 使 用 不 同 的 术语 。 虚 拟 存储 器 中 的 块 被 称 为 页 ( page)， 而 访问 
缺失 被 称 为 缺 页 ( page fault)。 在 虚拟 存储 器 中 ， 处 理 器 产生 一 个 虚拟 地 | 虚拟 地 址 ， 虚 拟 空间 中 的 
址 ( virtual address)， 由 一 系列 硬件 和 软件 转换 成 一 个 物理 地 址 ， 然 后 就 ”| 地 址 ， 访 问 存储 器 时 需要 
可 以 用 来 访问 主 存 。 图 5-25 显示 了 虚拟 地 址 编 址 的 存储 空间 ， 其 中 的 页 Ee 
映射 到 主 存 。 这 个 过 程 称 作 地 址 映射 或 者 地 址 转换 ( address tanslation )。 
如 今 ， 在 个 人 移动 设备 中 ， 由 虚拟 存储 器 控制 的 两 级 存储 器 层次 通常 是 “| 地 址 转换 ， 也 称 为 地 址 时 
DRAM 和 闪存 ， 而 在 服务 器 中 则 是 DRAM 和 磁盘 ( 见 52 节 )。 如 果 回 | 射 。 在 访问 存储 器 (内 存 ) 
到 之 前 图 书馆 的 类 比 ， 我 们 可 以 认为 虚拟 地 址 就 是 一 本 书 的 书 名 ， 而 物 。 | 时 将 虚拟 地 址 映射 为 物理 























理 地 址 则 是 这 本 书 在 图 书馆 中 的 位 置 ， 例 如 美国 国会 图 书馆 书号 。 es 
Cs 二 物理 地 址 图 5-25 虚拟 存储 器 中 ， 主 存 中 的 块 ( 称 为 页 ) 
3 从 一 组 地 址 ( 称 为 虚拟 地 址 ) 映射 到 另 
Ness 一 组 地 址 ( 称 为 物理 地 址 )。 处 理 器 产 
EE 和 et 生 虚 拟 地 址 ， 主 存 通过 物理 地 址 访问 
== 虚拟 存储 器 和 物理 存储 器 都 被 划分 成 
页 ， 因 此 虚拟 页 被 映射 到 物理 页 。 当 




















然 ， 虚 拟 页 也 可 能 不 在 主 存 中 ， 从 而 无 
法 映射 到 物理 地 址 ; 在 这 种 情况 下 ， 页 
存在 位 盘 上 。 物 理 页 可 能 被 两 个 指向 相 
磁盘 地 址 同 物理 地 址 的 虚拟 地 址 共享 ， 这 种 特性 
使 两 个 不 同 的 程序 可 以 共享 数据 或 代码 


虚拟 存储 器 还 可 以 通过 提供 重 定位 (relocation) 来 简化 执行 时 程序 的 加 载 。 在 用 虚拟 地 址 访 
问 存储 器 之 前 ， 重 定位 将 程序 使 用 的 虚拟 地 址 映射 到 物理 地 址 。 重 定位 允许 我 们 将 程序 加 载 到 
主 存 中 的 任意 位 置 。 此 外 ， 现 今 使 用 的 所 有 虚拟 存储 器 系统 将 程序 重 定位 成 一 组 固定 大 小 的 块 
日 ”如 磁盘 等 。 一 一 译 者 注 
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(页 )， 从 而 不 需要 在 主 存 中 寻找 连续 的 块 来 放置 程序 ， 而 只 需 操 作 系统 在 主 存 中 找到 足够 的 页 - 

在 虚拟 存储 器 中 ， 地 址 被 划分 为 虚拟 页 号 (virtual page number) 和 页 偏 移 ( page offset)。 
图 5-26 给 出 了 虚拟 页 号 到 物理 页 号 ( physical page number) 的 转换 。 尽 管 ARMv8 采用 64 位 地 
址 , 但 是 高 16 位 并 没有 使 用 。 所 以 被 映射 的 地 址 为 48 位 。 该 图 假设 物理 内 存 为 ITiB， 即 2” 字 
节 ， 需 要 40 位 地 址 。 物 理 页 号 构成 物理 地 址 的 高 位 部 分 ， 而 页 偏 移 不 变 ， 构 成 物理 地 址 的 低位 
部 分 。 页 偏 移 的 位 数 决定 了 页 的 大 小 。 虚 拟 地 址 可 寻 址 的 页 数 可 以 与 物理 地 址 可 寻 址 的 页 数 不 
同 。 正 是 因为 可 以 拥有 远 多 于 物理 页 的 虚拟 页 ， 虚 拟 存储 器 才 可 以 给 人 们 一 个 容量 无 限 的 假象 。 

虚拟 地 址 
47 46 45 44 43 ee 15141312111098 eens 3210 

















Virtual page number Page offset 




















Physical page number Page offset 





物理 地 址 
图 5$-26 虚拟 地 址 到 物理 地 址 的 映射 。 页 大 小 为 22= 4KiB。 物 理 页 号 有 28 位 ， 因 此 存储 器 中 允许 的 
物理 页 数 为 2”。 因 此 ， 主 存 最 多 可 达 1TiB ， 而 虚拟 地 址 空间 为 256TiB。ARMv8 允许 物理 内 
存 达到 256TiB; 这 里 选择 1TiB， 因 为 该 大 小 与 2015 年 一 些 ARMv8 计算 机 的 最 大 内 存 匹配 


页 缺失 产生 的 高 代价 是 虚拟 存储 器 系统 多 种 设计 选择 的 重要 原因 。 一 次 到 磁盘 的 缺 页 处 
理 将 花费 数 百 万 个 时 钟 周期 (5.2 节 的 表 表 明 ， 磁 盘 的 延迟 大 约 比 主 存储 器 延迟 快 100 000 
倍 )。 这 一 巨大 的 缺失 代价 (主要 取决 于 从 典型 大 小 的 页 中 取出 第 一 个 字 所 需 的 时 间 )， 导 致 
了 设计 虚拟 存储 系统 时 的 几 个 关键 决策 : 
e 页 要 足够 大 以 分 挫 较 长 的 访问 时 间 。 目 前 典型 的 页 大 小 为 4KiB ~ 64KiB。 正 在 研发 
的 新 的 桌面 机 和 服务 器 将 支持 32KiB ~ 64KiB 页 ， 但 新 的 调和 人 式 系 统 走 的 是 相反 的 
方向 ， 页 大 小 为 1KiB。 
。 降低 缺 页 率 的 组 织 结构 非常 具有 吸引 力 。 这 里 主要 使 用 的 技术 是 允许 主 存 中 的 页 全 相 
联 放置 。 
。 缺 页 可 以 用 软件 处 理 ， 因 为 相对 访问 磁盘 的 时 间 ， 软 件 处 理 的 开销 是 少 的 。 此 外 ， 软 
件 可 以 使 用 一 些 先进 的 算法 来 选择 如 何 放 置 页 ， 因 为 缺失 率 的 一 点 点 改善 足以 弥补 算 
法 的 开销 。 
。 由 于 写 操作 的 时 间 太 长 ， 写 直达 在 虚拟 存储 器 中 效果 不 好 。 因 此 ， 虚 拟 存储 系统 中 都 
采用 写 回 机 制 。 
下 面 几 节 将 把 这 些 因 素 融 人 虚拟 存储 器 的 设计 中 。 
睛 硕 我 们 引入 虚拟 存储 器 的 动机 是 多 个 虚拟 机 器 共享 同一 个 存储 器 ， 但 是 ， 虚 拟 存储 
器 最 初 被 发 明 时 是 用 来 使 多 个 程序 能 够 将 一 台 计 算 机 作为 分 时 系统 的 一 部 分 共享 。 由 于 现今 
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很 多 读者 对 分 时 系统 没有 概念 ， 我 们 使 用 虚拟 机 作为 本 节 引 入 虚拟 存储 器 的 动机 。 

贿 盘 | ARMv8 使 用 术语 颗粒 ( granule) 代替 页 ， 并 称 缺 页 为 内 存 管理 单元 (Memory 
Management Unit，MMU) 异常 。 尽 管 最 大 的 虚拟 地 址 为 48 位 ，ARMv8 允许 使 用 较 少 的 虚 
拟 机 地 址 ， 并 允许 物理 地 址 达到 48 位 。 对 于 最 小 页 或 颗粒 大 小 ，ARMv8 提供 三 种 选择 : 4、 
16 以 及 64Kibibyte。 

贱 盘 对 于 服务 器 和 PC 而 言 ，32 位 地 址 的 处 理 器 是 有 问题 的 。 虽 然 ， 我 们 通常 认为 虚 
拟 地 址 要 远大 于 物理 地 址 ， 但 是 当 处 理 器 地 址 的 大 小 相对 于 存储 器 技术 较 小 的 时 候 ， 相 反 的 
情况 也 会 出 现 。 单 个 程序 或 虚拟 机 不 能 受益 ， 但 是 一 组 程序 或 虚拟 机 同时 执行 时 ， 就 可 能 因 
无 需 交 换 出 主 存 或 者 在 并 行 处 理 器 上 执行 而 受益 。 

情 租 ;本 书 对 虚拟 存储 器 的 讨论 集中 在 分 页 上 ， 即 使 用 固定 大 
小 的 块 。 还 有 一 种 长 度 可 变 的 块 机 制 ， 称 为 分 段 (scgmentation)。 | 分 本， 各” 实 攻 全 四 地 
对 于 段 式 管理 ， 分 段 地 址 由 两 部 分 组 成 : 段 号 和 段 内 篇 移 。 段 号 映 。 | 二 包括 两 部 分 ;映射 到 物 
射 到 一 个 物理 地 址 ， 加 上 段 内 偏 移 找到 实际 物理 地 址 。 因 为 段 的 大 | 理 地 址 的 段 号 和 段 内 偏 移 。 
小 可 变 ， 因 此 需要 边界 检查 以 确保 偏 移 量 在 段 内 。 分 段 的 主要 用 途 
是 提供 更 有 效 的 方法 以 对 一 个 地 址 空间 进行 保护 和 共享 。 相 比分 页 ， 大 多 数 操作 系统 教科 书 
都 会 更 多 地 讨论 分 段 ， 以 及 如 何 利用 分 段 来 交 辑 共享 地 址 空间 。 分 段 的 主要 缺点 在 于 将 地 址 
空间 划分 为 许多 逻辑 上 独立 的 分 片 (piece)， 这 些 分 片 必 须 作 为 两 部 分 地 址 来 操作 : 段 号 和 
段 内 偏 移 。 相 反 ， 分 页 使 得 页 号 和 偏 移 量 之 间 的 界限 对 于 程序 员 和 编译 器 不 可 见 。 

分 段 也 曾 被 用 作 不 改变 计算 机 字 长 而 扩展 地 址 空间 的 方法 。 然 而 这 些 尝试 都 没有 成 功 ， 
原因 在 于 使 用 两 部 分 地 址 本 身 的 不 便 和 性 能 代价 ， 这 一 点 程序 员 和 编译 器 必须 意识 到 。 

很 多 体系 结构 将 地 址 空间 划分 成 固定 大 小 的 大 块 以 简化 操作 系统 和 用 户 程序 之 间 的 保 
护 ， 并 提高 分 页 实现 的 效率 。 尽 管 这 些 划分 常 被 称 为 “ 段 "， 但 是 这 种 机 制 要 比 块 大 小 可 变 
的 分 段 简 单 得 多 ， 并 且 对 用 户 程 序 不 可 见 ， 稍 后 我 们 将 对 此 详细 讨论 。 


5.7.1 页 的 存放 和 查找 


由 于 缺 页 代价 高 得 惊人 ， 设 计 人 员 通 过 对 页 的 放置 进行 优化 从 而 降低 缺 页 的 频率 。 如 果 
允许 虚拟 页 映射 到 任何 一 个 物理 页 ， 那 么 当 缺 页 发 生 时 ， 操 作 系统 可 以 选择 任意 一 个 页 进行 
替换 。 例 如 ， 操 作 系统 可 以 使 用 复杂 的 算法 和 数据 结构 来 跟踪 页 的 使 用 情况 ， 以 选择 在 较 长 
一 段 时 间 内 不 会 被 用 到 的 页 。 采 用 更 灵活 的 替换 策略 可 以 降低 缺 页 率 ， 并 简化 全 相 联 方式 下 
的 页 的 放置 。 

正如 54 节 中 提 到 的 ， 使 用 全 相 联 放 置 策略 的 困难 在 于 和 人 口 的 确 
定 ， 原 因 在 于 人 口 可 能 是 较 高 的 存储 器 层次 中 的 任何 位 置 。 全 部 检索 是 ”| 责 表 : 应 所存 储 器 中 保存 
不 切实 际 的 。 在 虚拟 存储 系统 中 ,我 们 通过 使 用 一 个 索引 主 存 的 表 来 定 “| 条 站 是 二 和 才 全 和 三 全 
位 页 ， 这 种 结构 称 为 页 表 ( page table)， 存 放 在 主 存 中 。 页 表 使 用 虚拟 地 | 在 主 在 中 ， 通 此 使 用 应 反 
址 中 的 页 号 进行 索引 ， 以 找到 对 应 的 物理 页 号 。 每 个 程序 都 有 自己 的 页 “| 页 号 来 未 引 ， 页 表 中 每 一 
表 , 将 该 程序 的 虚拟 地 址 空间 映射 到 主 存 中 。 与 图 书馆 进行 类 比 ， 页 表 | 环宇 各 ) 
对 应 于 书 名 和 该 书 位 置 之 问 的 映射 。 就 像 卡片 目录 可 能 包含 学 校 另 一 个 “| 应 的 委 理 页 号 - 
图 书馆 中 书 的 条 目 ， 而 不 仅 是 本 地 的 分 馆 ， 我 们 将 看 到 页 表 也 可 能 包含 
不 在 存储 器 中 的 页 的 条 目 。 为 了 指出 页 表 在 存储 器 中 的 位 置 ， 硬 件 包 含 一 个 指向 页 表 首 地 址 的 寄 
存 器 ， 称 为 页 表 寄 存 器 (page table register)。 现 在 假设 页 表 存在 存储 器 中 一 个 固定 的 连续 的 区 域内 。 
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汪 和 梓 罗 和 嫂 搂 汪 页 表 、 程 序 计数 器 以 及 寄存 器 定义 了 一 个 虚拟 机 的 状态 ( state)。 如 果 
我 们 想 让 另 一 个 虚拟 机 使 用 处 理 器 ， 就 必须 保存 该 状态 。 然 后 ， 在 该 状态 恢复 之 后 ， 虚 拟 机 
能 够 继续 执行 。 通 常 称 该 状态 为 进程 (process)。 如 果 一 个 进程 占用 了 处 理 器 ， 就 称 该 进程 
是 活跃 的 (active)， 和 否则 就 认为 是 非 活跃 的 (inactive)。 操 作 系统 可 以 通过 加 载 进程 的 状态 使 
一 个 进程 变 为 活跃 ， 加 载 的 状态 包括 程序 计数 器 ， 从 而 可 以 使 进程 从 保存 的 程序 计数 器 值 所 
指 的 位 置 开始 执行 。 

进程 的 地 址 空间 及 其 在 主 存 中 可 以 访问 的 所 有 数据 ， 都 由 贮存 在 主 存 中 的 页 表 定 义 。 操 
作 系统 只 是 简单 地 加 载 页 表 寄存 器 以 指向 它 想 激活 的 进程 的 页 表 ， 而 不 是 保存 整个 页 表 。 由 
于 不 同 进 程 使 用 相同 的 虚拟 地 址 ， 因 此 每 个 进程 都 有 自己 的 页 表 。 操 作 系统 负责 分 配 物理 主 
存 并 更 新 页 表 ， 因 此 不 同 进程 的 虚拟 地 址 空间 不 会 产生 冲突 。 稍 后 我 们 很 快 会 看 到 ， 使 用 独 
立 的 页 表 同 样 能 提供 进程 间 的 保护 。 

图 5-27 使 用 页 表 寄存 器 、 虚 拟 地 址 以 及 被 指定 的 页 表 来 说 明 硬件 如 何 形成 物理 地 址 。 
如 同 cache 中 那样 ， 每 个 页 表 项 使 用 ! 位 有 效 位 。 若 该 位 无 效 ， 表 明 该 页 不 在 主 存 中 ， 并 产 
生 一 次 缺 页 。 若 该 位 有 效 ， 表 明 该 页 在 主 在 中 ， 并 且 该 项 含有 物理 页 号 。 
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页 表 
| 
| 
如 果 为 0， 则 页 面 
不 在 存储 器 中 
NN 
Physical page number Page offset 
物理 地 址 


图 5-27 用 虚拟 页 号 索引 页 表 以 获得 对 应 的 物理 地 址 部 分 。 假 定 地 址 为 48 位 。 页 表 指 针 ? 给 出 了 页 表 
的 首 地 址 。 在 本 图 中 ,页 大 小 为 2” 字 节 ， 即 4KiB， 虚 拟 地 址 空间 为 2” 字 节 ， 即 256TiB， 物 
理 地 址 空间 为 2 字 节 ， 可 以 支持 高 达 1TiB 的 主 存 。 如 果 ARMv8 使 用 本 图 中 的 一 个 页 表 ， 页 
表 项 数 可 以 为 2*、 即 640 亿 项 。( 后 面 我 们 将 会 看 到 ARMv8 是 通过 什么 样 的 方法 来 精简 项 数 
的 。) 每 一 项 的 有 效 位 指出 了 映射 是 否 合 法 。 如 果 该 位 为 无 效 ( 0 )， 那 么 该 页 不 在 主 存 中 。 尽 
管 图 中 所 示 的 页 表 项 宽度 只 需 29 位 ， 但 为 了 索引 方便 一 般 将 其 扩大 为 2 的 指数 次 方 。ARMv8 
的 页 表 项 有 64 位 。 额 外 的 位 将 用 来 存放 每 页 都 要 保留 的 基本 的 附加 信息 ， 如 保护 信息 


日 、 即 页 表 寄 存 器 。 一 一 译 者 注 
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由 于 页 表 包 含 了 每 个 可 能 的 虚拟 页 的 映射 ,因此 不 需要 标记 位 。 用 来 访问 页 表 的 索引 包 
含 了 整个 块 地 址 ， 这 里 即 为 虚拟 页 号 。 


5.7.2” 缺 页 故障 


如 果 虚拟 页 的 有 效 位 为 无 效 ， 就 会 产生 缺 页。 操作 系统 必须 获得 控制 权 。 控 制 的 转移 由 
异常 机 制 完成 ， 这 点 我 们 在 第 4 章 已 经 看 到 并 将 在 本 节 稍 后 进行 讨论 。 一 旦 操作 系统 获得 控 
制 权 ， 就 必须 在 下 一 级 存储 器 层次 (通常 是 闪存 或 磁盘 ) 中 找到 该 页 ， 并 决定 将 所 需要 的 页 
放 到 主 存 中 的 哪个 位 置 。 

仅仅 是 虚拟 地 址 并 不 能 马上 告诉 我 们 页 在 二 级 存储 器 中 的 哪个 位 置 。 仍 以 图 书馆 的 例子 
类 比 ， 我 们 不 能 仅仅 依靠 书 名 就 找到 图 书 在 书架 上 的 具体 位 置 。 而 是 按 目录 查找 ， 获 得 书 在 
书架 上 的 位 置信 息 ， 例 如 美国 国会 图 书馆 的 书号 。 同 样 ， 在 虚拟 存储 系统 中 ， 我 们 必须 保持 
跟踪 记录 虚拟 地 址 空间 每 一 页 在 二 级 存储 器 中 的 位 置 。 

由 于 我 们 无 法 提前 获知 存储 器 中 的 某 一 页 什么 时 候 将 被 替换 出 去 ， 因 此 操作 系统 在 创建 
进程 的 时 候 通 常会 在 内 存 或 磁盘 上 为 进程 中 所 有 的 页 创建 空间 。 ee 
一 空间 称 为 交换 区 ( swap space)。 同 时 ， 操 作 系 统 也 会 创建 一 个 数 | 程 全 部 存储 空间 所 保留 的 
据 结构 来 记录 每 个 虚拟 页 在 磁盘 上 存放 的 位 置 。 这 个 数据 结构 可 能 。 | 磁盘 空间 。 

是 页 表 中 的 一 部 分 ， 也 可 能 是 一 个 寻 址 方式 和 页 表 一 样 的 辅助 数据 
结构 。 图 5-28 给 出 了 一 个 包含 物理 页 号 或 辅助 存储 器 地 址 的 表 的 结构 。 
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图 5-28 页 表 将 虚拟 存储 器 中 的 每 一 页 映射 到 主 存 中 的 一 页 或 磁盘 (存储 器 层次 结构 中 的 下 一 层 ) 上 
的 一 页 。 虚拟 页 号 用 来 检索 页 表 。 如 果 有 效 位 开启 ， 页 表 提 供 虚拟 页 对 应 的 物理 页 号 (如 存 
储 器 中 该 页 的 首 地 址 )。 如 果 有 效 位 关闭 ， 那 么 该 页 当前 只 存在 于 磁盘 上 某 个 指定 的 磁盘 地 址 
上 。 因 为 在 很 多 系统 中 ,物理 页 地 址 和 磁盘 页 地 址 的 表 在 逻辑 上 是 一 个 ,但 是 保存 在 两 个 独 
立 的 数据 结构 中 。 使 用 双 表 是 合理 的 ， 因 为 我 们 必须 保存 所 有 页 的 磁盘 地 址 ， 即 便 这 些 页 当 
前 在 主 存 中 。 记 住 ， 主 存 中 的 页 和 磁盘 上 的 页 大 小 相等 


操作 系统 也 会 创建 一 个 数据 结构 来 跟踪 记录 每 个 物理 页 被 哪些 进程 和 哪些 虚拟 地 址 使 
用 。 当 一 次 缺 页 产生 时 ， 如 果 主 存 中 所 有 的 页 都 在 使 用 ， 那 么 操作 系统 仍 选择 一 页 进行 蔡 
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换 。 因 为 希望 将 缺 页 次 数 减 到 最 少 ， 所 以 大 多 数 操作 系统 都 会 选择 它们 猜测 近期 内 不 会 被 
使 用 的 页 进行 替换 。 使 用 过 去 的 信息 预测 未 来 ,操作 系 统 遵循 5.4 节 中 提 到 的 最 近 最 少 使 用 
(LRU) 替换 策略 。 操 作 系统 查找 最 近 最 少 使 用 的 页 ， 假 定 某 一 页 在 很 长 一 段 时 间 都 没有 被 访 
问 ， 那 么 该 页 再 被 访问 的 可 能 性 比 最 近 经 常 访问 的 页 的 可 能 性 要 小 。 被 蔡 换 的 页 被 写 人 二 级 
存储 器 的 交换 区 。 操 作 系 统 本 身 只 是 另 一 个 进程 ， 而 这 些 控制 主 存 的 表 也 在 主 存 中 ; 这 个 看 
似 矛 盾 的 细节 将 稍 后 解释 。 

和 湛 计 要 实现 一 个 完全 正确 的 LRU 机 制 代价 太 高 ， 因 为 每 次 存储 器 访问 时 
都 需要 更 新 数据 结构 。 因 此 ， 大 多 数 操作 系统 采用 近似 的 LRU， 跟 踪 记 录 哪些 页 最 近 被 使 
用 ,哪些 页 最 近 没 有 被 用 到 。 为 了 帮助 操作 系统 估算 最 近 最 少 使 用 的 页 ， 一 些 计算 机 提供 了 
一 个 引用 位 (reference bit) 或 者 称 为 使 用 位 (use bit)， 当 一 个 页 被 访问 时 该 位 被 置 位 。 
(ARMv8 称 之 为 访问 位 (access bit)。) 操作 系统 定期 将 引用 位 清 零 ， 
并 记录 下 来 ， 从 而 可 以 确定 在 某 个 特定 的 时 间 段 中 哪些 页 被 访问 过 。 | 引用 位 : 也 称 为 使 用 位 或 
有 了 这 些 使 用 信息 ， 操 作 系统 就 可 以 从 那些 最 近 最 少 访问 的 页 ( 通 
过 检查 其 引用 位 是 否 关闭 来 检测 ) 中 选择 一 页 。 如 果 硬件 没有 提供 “| 岗 LRU 牙 其 他 埋 换 曙 略 
这 一 位 ， 操 作 系统 必须 找到 其 他 的 方法 来 估算 哪些 页 被 访问 过 。 


5.7.3 ”用 于 大 型 虚拟 地 址 的 虚拟 内 存 


图 5-27 的 图 题 指出 ， 若 地 址 为 48 位 ， 页 大 小 为 4kiB， 对 于 一 个 单 级 页 表 ， 我 们 需要 
640 亿 个 页 表 项 。 因 为 对 于 ARMv8 每 个 页 表 项 为 8 字 节 ， 所 以 仅 将 虚拟 地 址 映射 到 物理 地 
址 就 需要 0.5TiB 的 存储 空间 ! 此 外 ,计算 机 中 可 能 有 成 百 上 千 的 进程 在 运行 ， 每 个 都 有 自 
己 的 页 表 。 即 使 对 于 最 大 的 系统 而 言 ， 也 无 法 承担 这 么 多 的 存储 空间 以 用 于 地 址 转换 。 

目前 ， 已 有 一 系列 技术 被 用 来 减少 页 表 所 需 的 存储 量 。 下 面 五 种 技术 的 目标 是 减少 所 需 
的 总 的 最 大 存储 量 以 及 减少 用 于 页 表 的 主 存 : 

。 最 简单 的 技术 是 使 用 一 个 界限 寄存 器 (limit register) 限制 给 定 进程 的 页 表 大 小 。 如 果 
虚拟 页 号 大 于 界限 寄存 器 中 的 值 ， 那 么 页 表 中 必须 加 入 该 项 。 这 种 技术 允许 页 表 随 着 
进程 消耗 空间 的 增多 而 增长 。 因 此 ， 只 有 当 进 程 使 用 了 虚拟 地 址 空间 的 很 多 页 时 ， 页 
表 才 会 变 得 很 大 。 这 种 技术 要 求 地 址 空间 只 在 一 个 方向 上 扩展 。 
允许 地 址 空间 只 朝 一 个 方向 增长 并 不 够 ， 因 为 大 多 数 语言 需要 两 个 大 小 可 扩展 的 区 
域 : 一 个 用 来 存放 栈 ， 一 个 用 来 存放 堆 。 因 为 这 种 二 元 性 ， 划 分 页 表 并 使 其 既 能 从 最 
高 地 址 向 下 扩展 ， 也 能 从 最 低地 址 向 上 扩展 ， 变 得 很 方便 。 这 意味 着 将 有 两 个 独立 的 
页 表 和 两 个 独立 的 界限 。 使 用 两 个 页 表 将 地 址 空间 分 成 两 段 。 地 址 的 高 位 通常 用 来 确 
定 该 地 址 使 用 的 段 和 页 表 。 由 于 高 地 址 位 定义 了 段 ， 因 此 每 一 段 可 以 有 地 址 空间 的 一 
半 大 。 每 段 的 界限 寄存 器 指定 了 段 的 当前 大 小 ， 该 大 小 以 页 为 单位 增长 。 这 种 类 型 的 
分 段 被 用 于 很 多 体系 结构 中 ,包括 ARMv8 和 MIPS。 与 5.7 节 精 解 中 讨论 的 段 类 型 
不 同 ， 这 种 段 对 应 用 程序 是 不 可 见 的 ， 尽 管 其 对 操作 系统 可 见 。 这 种 机 制 主要 的 缺陷 
在 于 当 以 一 种 稀 朴 方式 使 用 地 址 空间 而 不 是 一 组 连续 的 虚拟 地 址 时 ， 该 机 制 的 执行 效 
果 不 好 。 

另 一 种 减 小 页 表 容 量 的 方法 是 对 虚拟 地 址 使 用 哈 希 函数 ， 从 而 使 页 表 需 要 的 容量 仅仅 
是 主 存 中 物理 页 数 的 大 小 。 这 种 结构 称 为 反 向 页 表 (inverted page table)。 当 然 ， 反 
向 页 表 的 查找 过 程 略微 复杂 一 点 ， 因 为 此 时 我 们 不 能 仅仅 索引 页 表 了 。 
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为 了 减少 页 表 实际 占用 的 主 存 空 间 ， 很 多 系统 现在 也 允许 对 页 表 进 行 分 页 。 虽 然 听 起 
来 很 复杂 ， 但 其 实 使 用 了 和 虚拟 存储 器 相同 的 基本 原理 ， 简 单 地 允许 页 表 驻 留 在 虚拟 
地 址 空间 中 。 此 外 ,还 有 一 些 很 小 却 很 关键 的 问题 ， 例 如 必须 避免 的 不 断 出 现 的 缺 页 
故障 。 如 何 解决 这 些 问题 涉及 很 多 细节 ， 并 且 一 般 都 是 高 度 依赖 于 处 理 器 的 。 简 单 来 
说 ， 要 避免 这 些 问 题 ， 可 以 将 全 部 页 表 置 于 操作 系统 地 址 空间 中 ， 并 且 至 少 把 操作 系 
统 中 的 一 部 分 页 表 放 在 物理 寻 址 的 一 块 主 存 区 域 中 ， 这 部 分 区 域 总 是 存在 于 主 存 而 非 
二 级 存储 器 中 。 

多 级 页 表 还 可 以 用 来 减少 页 表 的 总 存储 量 。ARMv8 使 用 该 方法 减少 了 地 址 转换 时 对 
内 存 的 占用 。 图 5-29 展示 了 一 个 从 48 位 虚拟 地 址 到 一 个 4KiB 页 和 0 位 物理 地 址 的 四 
级 地 址 转换 过 程 。 该 地 址 转换 过 程 中 ， 首 先 使 用 地 址 最 高 的 几 位 查看 0 级 页 表 。 如 果 
该 页 表 中 的 地 址 有 效 ， 那么 再 使 用 后 续 的 几 位 高 位 地 址 位 在 段 表 项 指示 的 页 表 中 进行 
查找 ， 以 此 类 推 。 因 此 ，0 级 页 表 将 虚拟 地 址 映射 到 一 个 512GB ( 2” 字 节 ) 的 区 域 。 
1 级 页 表 将 虚拟 地 址 映射 到 一 个 1GB (2” 字 节 ) 的 区 域 。 下 一 级 则 映射 到 一 个 2MB 
(22 字 节 ) 的 区 域 。 最 后 一 级 页 表 将 虚拟 地 址 映射 到 4KiB ( 2” 字 节 ) 的 内 存 页 。 这 
种 机 制 允 许 以 一 种 稀 朴 的 方式 (多 个 不 相连 的 段 都 可 以 处 于 活跃 状态 ) 来 使 用 地 址 空 
间 ， 不 需要 分 配 整个 页 表 。 这 种 机 制 对 于 非常 大 的 地 址 空间 以 及 需要 非 连续 地 址 分 
配 的 软件 系统 尤为 有 效 。 而 这 种 多 级 映射 机 制 的 主要 不 足 在 于 其 地 址 转换 过 程 更 为 
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图 5-29 ARMYv8 使 用 四 级 页 表 将 48 位 虚拟 地 址 转换 到 40 位 物理 地 址 。 图 5-27 中 的 单个 页 表 需 要 


640 亿 个 页 表 项 ， 而 图 中 分 层 的 方法 仅仅 需要 很 小 的 空间 。 每 一 步 转换 使 用 虚拟 地 址 中 的 9 
位 来 找到 下 一 级 页 表 ， 直 到 虚拟 地 址 的 高 36 位 都 被 映射 到 所 需 的 4KiB 页 的 物理 地 址 。 每 个 
ARMv8 页 表 项 为 8 字 节 ， 因 此 512 个 页 表 项 可 以 填 满 一 个 4KiB 的 页 。 转 换 页 表 基 址 寄存 器 
(Translation Table Base Register，TTBR) 给 出 第 一 个 页 表 的 起 始 地 址 


网 网 前 面 精 解 中 曾 提 到 , ARMv8 提供 了 三 种 最 小 页 选择 ， 即 4、16 和 64KiB。 图 5-29 
的 图 题 指 出 ， 每 级 页 表 为 一 页 ， 对 应 转换 每 级 虚拟 地 址 中 的 9 位 。 如 果 一 个 系统 使 用 较 大 的 
最 小 页 大 小 ， 那 么 在 一 个 页 中 便 可 以 映射 更 多 的 虚拟 地 址 位 ， 同 时 页 本 身 也 变 大 ， 故 页 大 小 
为 64KiB 的 系统 仅 需要 三 野 页 表 。 
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5.7.4 关于 写 

cache 访问 时 间 和 主 存 访问 时 间 之 间 相 差 上 百 个 时 钟 周期 ， 我 们 可 以 使 用 写 直达 机 制 ， 
但 是 需要 一 个 写 缓 训 区 来 隐藏 来 自 处 理 器 的 写 延迟 。 在 虚拟 存储 器 系统 中 ， 写 下 一 级 存储 器 
层次 (磁盘 ) 需要 数 百 万 个 处 理 器 时 钟 周期 因此， 创建 一 个 写 缓冲 区 使 系统 写 直达 磁盘 是 
Sa 相反 ， 虚 拟 存储 器 系统 必须 使 用 写 回 机 制 ， 单 独 的 写 操作 在 内 存 中 的 页 上 进 

， 并 在 页 被 蔡 换 出 主 存 时 再 将 其 复制 ( 写 回 ) 到 二 级 存储 器 中 。 

i 加 机 制 在 诬 拟 存储 系 统 中 还 有 男 一 个 主要 的 优点 。 因 为 磁盘 的 传输 时 
间 相对 其 访问 时 间 少 得 多 ， 所 以 把 整 页 复制 回 磁 益 要 比 把 单个 字 写 回 础 盘 高 效 得 多 。 尽 入 写 回 
操作 比 传输 单个 字 更 高 效 ， 但 仍然 开销 很 大 。 因 此 ， 当 某 一 页 被 痊 换 时 ， 我 们 希望 知道 该 页 是 
否 需 要 被 写 回 。 为 了 和 追踪 读 入 主 存 中 的 页 是 否 被 写 过 ， 页 表 中 增加 了 一 个 胜 位 (dirty bit)。 

中 任 一 字 被 写 时 ， 该 位 置 位 。 若 操作 系统 选择 替换 某 页 ， 那 么 脏 位 指明 了 该 页 在 主 存 中 的 位 置 
让 给 另 一 页 之 前 ， 是 否 需要 将 该 页 写 回 。 因 此 ， 一 个 修改 过 的 页 也 通常 被 称 为 脏 页 (dirty page)。 
5.7.5 “加快 地 址 转换 : TLB 

由 于 页 表 存放 在 主 存 中 ， 因 此 程序 每 次 访 存 至 少 需要 两 次 : 一 次 访 存 获得 物理 地 址 ， 第 二 
次 访 存 获得 数据 。 提 高 访问 性 能 的 关键 在 于 依靠 页 表 的 访问 局 部 性 。 当 一 次 转换 的 虚拟 页 号 被 
使 用 时 ， 可 能 不 久 又 会 被 用 到 ， 因 为 对 该 页 中 字 的 引用 同时 具有 时 间 局 部 性 和 空间 局 部 性 。 

因此 ， 现 代 处 理 器 都 包含 一 个 特殊 的 cache， 以 追踪 最 近 使 用 
过 的 地 址 转换 。 这 个 特殊 的 地 址 转换 cache 称 为 快 表 (Translation-。 | 估 要 人生 人 和 人 人 
Lookaside Buffer,TLB) >， 虽 然 称 为 地 址 变换 cache 更 精确 。TLB 相 | 以 加 免 每 次 都 要 访问 页 表 。 
当 于 用 来 记录 在 (图 书馆 ) 卡片 目录 中 查找 的 一 组 书 的 位 置 的 小 纸 
片 ， 我 们 在 纸 片上 记录 一 些 书 的 位 置 ， 并 且 将 纸 片 作为 图 书馆 索 书号 的 cache， 这 样 就 不 用 
在 整个 目录 中 搜索 。 

图 5-30 中 ，TLB 的 每 个 标记 项 中 存放 虚拟 页 号 的 一 部 分 ， 每 个 数据 项 中 存放 一 个 物理 
页 号 。 由 于 每 次 访问 时 我 们 访问 的 是 TLB 而 不 是 页 表 ， 因 此 TLB 需要 包括 其 他 状态 位 ， 如 
脏 位 和 引用 位 。 尽 管 图 5-30 给 出 的 是 单个 页 表 ， 但 对 于 多 级 页 表 TLB 也 可 以 很 好 地 工作 。 
TLB 简单 地 从 最 后 一 级 页 表 中 加 载 物理 地 址 和 保护 标签 。 

每 次 访问 都 要 在 TLB 中 查找 虚拟 页 号 。 如 果 命中 ， 物 理 页 号 就 用 来 形成 地 址 ， 相 应 的 
引用 位 被 置 位 。 如 果 处 理 器 执行 的 是 写 操作 ， 脏 位 同样 被 置 位 。 如 果 TLB 产生 缺失 ， 我 们 
必须 判断 产生 的 是 缺 页 还 是 仅仅 是 一 次 TLB 缺失 。 如 果 该 页 在 主 存 中 ， 那 么 TLB 缺失 意味 
的 只 是 一 次 地 址 转换 缺失 。 在 这 种 情况 下 ， 处 理 器 可 以 通过 将 转换 从 (最 后 一 级 ) 页 表 中 加 
载 到 TLB 中 ， 然 后 重新 访问 来 处 理 TLB 缺失 。 如 果 该 页 不 在 主 存 中 ,那么 TLB 缺失 就 意味 
着 一 次 真正 的 缺 页 故障 。 在 这 种 情况 下 ， 处 理 器 通过 异常 调用 操作 系统 。 由 于 TLB 中 的 项 
数 要 比 主 存 中 的 页 数 少 得 多 ，TLB 缺失 会 比 真正 的 缺 页 出 现 得 频繁 得 多 。 

TLB 缺失 既 可 以 通过 硬件 处 理 ， 也 可 以 通过 软件 处 理 。 实 际 上 ， 两 种 方法 的 性 能 差别 很 
小 ， 因 为 两 种 方法 的 基本 操作 是 一 样 的 。 

在 产生 了 TLB 缺失 ， 并 且 缺 失 的 转换 已 在 页 表 中 寻 回 后 ， 我 们 需要 从 TLB 中 选择 一 项 
进行 替换 。 由 于 TLB 表 项 中 包含 了 引用 位 和 脏 位 ， 因 此 某 项 被 普 换 时 ， 这 些 位 也 需要 复制 
回 页 表 项 中 。 这 些 位 是 TLB 表 项 中 唯一 可 以 修改 的 部 分 。 利 用 写 回 策略 ( 即 只 在 缺失 时 将 这 

日 转换 地 址 缓冲 区 ， 俗 称 “ 快 表 " 。 一 一 译 者 注 
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些 表 项 写 回 而 不 是 在 每 次 写 操作 时 写 回 ) 是 非常 有 效 的 ， 因 为 我 们 期 望 TLB 缺失 率 更 低 。 一 
些 系统 使 用 其 他 技术 来 近似 引用 位 和 脏 位 的 功能 ， 以 消除 除了 缺失 后 装 人 新 表 项 之 外 (将 这 
些 位 ) 写 入 TLB 的 需求 。 
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图 5-30 ”TLB 作为 页 表 的 cache， 仅 用 于 存放 映射 到 物理 页 中 的 那些 项 。TLB 包含 了 页 表 中 从 虚拟 页 
到 物理 页 映射 的 一 个 子 集 。TLB 映射 以 灰色 线 显示 。 因 为 TLB 是 一 个 cache， 所 以 必须 有 标 
记 字 段 。 如 果 页 在 TLB 中 没有 匹配 的 项 ， 那 么 就 必须 检查 页 表 。 页 表 或 者 提供 该 页 的 物理 页 
号 (可 用 来 创建 一 个 TLB 项 ), 或 者 指明 该 页 在 磁盘 上 ， 这 种 情况 下 就 会 发 生 一 次 缺 页 。 由 于 
页 表 对 于 每 个 虚拟 页 都 有 一 个 相应 的 项 ， 因 此 不 需要 标记 字段 ; 也 就 是 说 ,不 同 于 TLB, 页 
表 并 不 是 cache 


TLB 的 一 些 典型 参数 为 : 

。 TLB 大 小 : 16 ~ 512 个 项 。 

。 块 大 小 : 1 一 2 个 页 表 项 (通常 每 个 4 一 8 字 节 )。 

。 命中 时 间 : 0.5 ~ 1 个 时 钟 周期 。 

。 缺失 代价 : 10 一 100 个 时 钟 周期 。 

。 缺失 率 ; 0.01% 一 1%。 

设计 者 在 TLB 中 使 用 了 多 种 相 联 度 配置 。 有 些 系统 使 用 小 的 全 相 联 TLB， 因 为 全 相 联 
有 和 较 低 的 缺失 率 ; 此 外 ， 由 于 TLB 很 小 ， 全 相 联 映射 的 成 本 也 不 会 太 高 。 其 他 一 些 系 统 使 
用 大 容量 的 TLB， 通 常 相 联 度 较 低 。 在 全 相 联 映射 方式 下 ， 蔡 换 项 的 选择 变 得 十 分 复杂 ， 因 
为 用 硬件 实现 LRU 策略 代价 很 大 。 另外， 由 于 TLB 缺失 比 缺 页 频繁 得 多 ， 因 此 必须 用 较 低 
的 代价 来 处 理 TLB 缺失 。 与 处 理 缺 页 故障 不 同 , 我们 无 法 承担 TLB 缺失 处 理 昂贵 的 软件 算 
法 。 所 以 很 多 系统 都 支持 随机 选择 替换 表 项 。5.8 节 中 将 会 更 详细 地 讨论 蔡 换 策略 。 


5.7.6 Intrinsity FastMATH TLB 
为 了 看 到 这 些 理念 在 实际 处 理 器 中 的 应 用 ,我 们 来 进一步 了 解 mtrinsity FastMATH 的 
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TLB。 存储 系 统 页 大 小 为 4KiB ， 地 址 空间 为 32 位， 因此， 虚拟 页 号 为 20 位 长 。 物 理 地 址 
和 虚拟 地 址 长 度 相等 。TLB 包含 16 项 ,采用 全 相 联 映射 ， 在 指令 和 数据 访问 间 共 享 。 每 个 
项 为 64 位 宽 ， 包含 一 个 20 位 的 标记 (该 TLB 表 项 的 虚拟 页 号 )、 对 应 的 物理 页 号 (也 是 20 
位 )、 一 个 有 效 位 、 一 个 脏 位 ， 以 及 一 些 其 他 的 德 记 位 ( bookkeeping bit)。 与 大 多 数 MIPS 系 
统 类 似 , 使 用 软件 处 理 TLB 缺失 。 

图 5-31 给 出 了 TLB 和 其 中 一 个 cache， 图 5-32 展示 了 一 次 读 或 写 请 求 的 处 理 步骤 。 当 
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5-31 TLB 和 cache 实现 了 Intrinsity FastMATH 中 从 一 个 虚拟 地 址 到 数据 项 的 转换 过 程 。 本 图 描述 
了 TLB 和 数据 cache 的 结构 ， 这 里 假设 页 大 小 是 4KiB。 注 意 ， 此 处 地 址 大 小 仅 为 32 位。 本 
图 侧重 于 读 操 作 ， 图 5-32 则 描述 了 如 何 处 理 写 。 与 图 5-12 不 同 的 是 ， 此 处 标记 和 数据 RAM 
是 分 开 的 。 通 过 使 用 cache 索引 和 块 偏 移 来 寻 址 长 而 窄 的 数据 RAM， 我 们 可 以 选 出 块 中 所 需 
的 字 ， 无 需 使 用 16:1 的 多 路 选择 器 。 当 cache 采用 直接 映射 方式 时 ，TLB 是 全 相 联 的 。 实 现 
全 相 联 TLB 需要 将 每 个 TLB 标记 与 虚拟 页 号 进行 比较 ， 因 为 需要 的 项 可 能 存在 于 TLB 中 的 
! 任何 位 置 (参考 5.4.2 节 精 解 中 内 容 可 寻 址 存储 器 的 内 容 )。 如 果 匹 配 项 的 有 效 位 有 效 ， 那 么 
455 TLB 命中 ， 物 理 页 号 与 页 偏 移 中 的 位 共同 形成 访问 cache 的 索引 
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一 次 TLB 缺失 产生 时 ， 硬 件 把 访问 的 页 号 保存 在 一 个 特殊 寄存 器 中 ， 并 产生 一 次 异常 。 异 
常 请 求 操作 系统 通过 软件 处 理 缺失 。 为 了 找到 缺失 页 的 物理 地 址 ，TLB 缺失 通过 虚拟 地 址 的 
页 号 和 页 表 寄 存 器 来 索引 页 表 ， 页 表 寄 存 器 给 出 了 活路 进程 页 表 的 起 始 地 址 。 通 过 使 用 一 系 
列 能 够 更 新 TLB 的 特殊 系统 指令 ， 操 作 系 统 将 页 表 中 的 物理 地 址 放 入 TLB 中 。 假 设 代码 和 
页 表 项 分 别 在 指令 cache 和 数据 cache 中 ,那么 一 次 TLB 缺失 大 概 需 要 花费 13 个 时 钟 周期 。 
如 果 页 表 项 中 没有 有 效 物 理 地 址 ， 就 会 产生 一 次 真正 的 缺 页 。 硬 件 保 存 着 被 建议 替换 项 的 索 
引 ， 替 换 项 的 选择 是 随机 的 。 






数据 送 给 CPU 


cache 就 可 以 通过 ( TLB 命中 ) 得 到 的 物理 地 址 访问 。 对 于 读 操作 ，cache 产生 命中 或 缺失 ， 
提供 数据 或 者 引起 阻塞 ( 当 从 存储 器 中 借 取 数据 时 )。 对 于 写 操作 ， 若 命中 ，cache 数据 项 中 
的 一 部 分 内 容 将 被 重 写 ， 并 且 若 采 用 写 直 达 策 略 ， 还 要 将 数据 送 到 写 缓冲 区 中 。 除 了 数据 块 
从 存储 器 中 读 出 后 会 被 修改 之 外 ， 写 缺失 和 读 缺 失 差 不 多 。 写 回 策略 需要 写 操作 同时 将 cache 
块 的 脏 位 置 位 ， 并 且 只 有 在 读 或 写 缺失 且 被 替换 块 的 脏 位 有 效 时 ， 才 将 整 块 加 载 到 写 缓冲 区 
中 。 注 意 ，TLB 命中 和 cache 命中 是 相互 独立 的 事件 ， 但 cache 命中 只 可 能 发 生 在 TLB 命中 
之 后 ， 这 就 意味 着 数据 必须 在 主 存 中 。TLB 缺失 和 cache 缺失 之 间 的 关系 将 在 后 续 例 子 和 本 
章 最 后 的 练习 题 中 进一步 研究 。 注 意 此 处 计算 机 的 地 址 大 小 仅 为 32 位 
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对 于 写 请 求 还 有 一 个 额外 的 复杂 问题 ， 即 必须 检查 TLB 中 的 写 访问 位 。 该 位 可 以 防止 
程序 向 其 仅 具 有 读 权限 的 页 中 进行 写 操作 。 如 果 程 序 试图 写 ， 且 写 访问 位 关闭 ， 那 么 就 会 产 
生 异 常 。 写 访问 位 构成 了 保护 机 制 的 一 部 分 ， 稍 后 我 们 将 进行 讨论 。 


5.7.7 ”集成 虚拟 存储 器 、TLB 和 cache 


虚拟 存储 器 和 cache 系统 一 起 构成 一 个 层次 结构 。 因 此 ， 若 数据 不 在 主 存 中 ， 那 么 也 不 
可 能 在 cache 中 。 操 作 系统 帮助 管理 该 层次 结构 ， 当 其 决定 将 某 一 页 移 到 二 级 存储 器 上 时 ， 
就 从 cache 中 将 该 页 内 容 清空 。 同 时 ， 操 作 系 统 修改 页 表 和 TLB， 因 此 ， 尝 试 访问 该 页 上 的 
任意 数据 都 将 产生 缺 页 。 
在 最 好 的 情况 下 ， 虚 拟 地 址 由 TLB 进行 转换 ， 并 被 送 到 cache， 找 到 相应 的 数据 ， 取 加 
并 送 入 处 理 器 。 在 最 坏 情况 下 ， 访 问 在 存储 器 层次 结构 中 TLB、 页 表 和 cache 三 个 部 分 都 产 
































生 缺 失 。 下 面 的 例子 将 详细 地 演示 这 些 交互 过 程 。 


| 例题 | 存储 器 层次 结构 的 全 部 操作 
在 一 个 类 似 于 图 5-31 的 存储 器 层次 结构 (包括 一 个 TLB 和 一 个 cache) 中 ， 一 次 访 存 可 

能 遇 到 三 种 不 同类 型 的 缺失 : TLB 缺失 、 缺 页 以 及 cache 缺失 。 考 虑 这 三 种 缺失 发 生 一 个 或 

多 个 时 所 有 可 能 的 组 合 ( 7 种 可 能 )。 对 每 种 可 能 性 ， 说 明 这 种 情况 是 否 实际 会 发 生 ， 在 什么 

情况 下 发 生 。 

| 答案 | 图 5-33 列 出 了 所 有 可 能 的 组 合 ， 并 说 明 每 一 种 是 否 实际 可 能 发 生 。 








时 在 f 

命中 | 命中 | 缺失 可 能 ， 虽 然 若 TLB 命 中 页 表 不 会 被 检查 
缺失 | 命中 | 命中 TLB 缺 失 ， 但 在 页 表 中 找到 表 项 ， 重 试 后 在 cache 中 找到 数据 
缺失 | 命中 | 缺失 TLB 缺 失 ， 但 在 页 表 中 找到 表 项 ， 重 试 后 在 cache 中 未 找到 数据 
缺失 | 缺失 | 缺失 TLB 缺 失 ， 随 后 发 生 缺 页 ; 重 试 后 在 cache 中 数据 必然 产生 缺失 
命中 | 缺失 | 缺失 不 可 能 : 如 果 页 不 在 主 存 中 ，TLB 中 不 可 能 有 该 转换 


命中 | 缺失 | 命中 不 可 能 : 如果 页 不 在 主 存 中 ，TLB 中 不 可 能 有 该 转换 
缺失 | 缺失 | 命中 不 可 能 : 如 果 页 不 在 主 存 中 ， 数 据 不 允许 在 cache 中 存在 


图 5-33 TLB、 虚 拟 存储 器 系统 以 及 cache 中 可 能 发 生 的 事件 组 合 。 其 中 有 三 种 是 不 可 能 的 ， 有 一 种 
是 可 能 的 ， 但 永远 不 可 能 被 检测 到 (TLB 命中 ， 页 表 命中 ，cache 缺失 ) 






































| 潮 冲 N 图 5-33 假定 在 访问 cache 之 前 ， 所 有 的 存储 器 地 址 都 被 转换 成 物理 地 址 。 在 这 种 
结构 中 ，cache 是 按 物理 地 址 索引 并 且 是 物理 标记 的 《〈cache 索引 和 标记 都 是 物理 地 址 ， 而 不 
是 虚拟 地 址 )。 在 该 系统 中 ， 假 定 cache 命中 ， 那 么 访 存 时 间 必 须 包 括 一 次 TLB 访问 和 一 次 
cache 访问 的 时 间 。 当 然 ， 这 些 访问 是 可 以 按 鞠 号 斑 执行 的 。 

另外 ， 处 理 器 可 以 用 一 个 完整 的 或 考 部 分 虚拟 的 地 址 索引 | 虚拟 寻 址 cache : 使 用 虚 
cache。 这 称 为 虚拟 寻 址 cache (virtually addressed cache)， 使 用 虚拟 te 
地 址 作为 标记 ， 因 此 这 种 cache 是 按 虚 拟 地 址 索引 并 且 是 虚拟 标记 
的 。 在 这 种 cache 中 ， 地 址 转换 硬件 (TLB) 在 正常 的 cache 访问 中 没有 被 使 用 ， 因 为 cache 
是 通过 未 被 转换 成 物理 地 址 的 虚拟 地 址 来 访问 的 。 这 样 就 把 TLB 排除 在 关键 路 径 之 外 ， 减 
少 了 cache 延迟 。 当 cache 缺失 产生 时 ， 处 理 器 需要 将 该 地 址 转换 成 物理 地 址 ， 以 便 从 主 存 
中 取出 cache 块 。 
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当 使 用 一 个 虚拟 地 址 访问 cache， 并且 进程 间 共 享 页 时 (进程 可 | 别名 : 两 个 地 址 访问 同一 
能 使 用 不 同 的 虚拟 地 址 访问 页 )， 就 可 能 有 别名 ( aliasing) 存在 。 当 | 个 目标 的 情形 ， 可 能 发 生 
同一 个 对 象 有 两 个 名 字 时 就 会 产生 别名 一 在 这 种 情况 下 ， 两 个 虚 | 各 信 入 于 区 个 
拟 地 址 对 应 于 同一 页 。 这 种 多 义 性 会 产生 一 个 问题 ， 即 由 于 该 页 上 
的 一 个 字 可 能 存在 于 cache 中 的 两 个 不 同位 置 上 ， 而 每 个 位 置 对 应 
了 一 个 不 同 的 虚拟 地 址 。 这 种 歧义 将 允许 一 个 程序 写 数 据 ， 而 另 一 
个 程序 并 不 知道 数据 已 被 改变 。 完 全 以 虚拟 地 址 寻 址 的 cache 或 者 
减少 对 cache 和 TLB 的 设计 限制 以 减少 别名 ， 或 者 要 求 操作 系统 或 可 能 是 用 户 来 采取 措施 以 
保证 别名 不 会 发 生 。 

这 两 种 设计 观点 之 间 一 个 常用 的 折 中 方法 是 采用 虚拟 地 址 索引 的 cache 一 一 有 时 仅 使 用 
地 址 的 页 偏 移 部 分 ， 该 部 分 实际 上 是 物理 地 址 ， 因 为 没有 被 转换 一 一 但 使 用 物理 标记 。 这 
些 采 用 虚拟 索引 和 物理 标记 的 设计 ， 试 图 同时 拥有 虚拟 地 址 索引 cache 的 性 能 优势 以 及 物 
理 寻 址 cache ( physical addressed cache) 的 简单 结构 。 例 如 ， 在 这 种 情况 下 就 没有 别名 的 
问题 。 图 5-31 中 假定 页 大 小 为 4KiB， 但 实际 上 有 16KiB， 因 此 Intrinsity FastMATH 就 使 
用 了 这 种 把 戏 。 要 实现 这 种 方法 ， 必 须 在 最 小 页 大 小 、cache 大 小 以 及 相 联 度 之 间 进 行 谨慎 
的 权衡 。ARMYv8 允许 指令 cache 使 用 物理 或 者 虚拟 索引 ， 但 必须 使 用 物理 标记 。 要 求 数据 
cache 表现 得 好 像 是 采用 物理 标记 和 索引 ， 但 并 不 强制 实现 。 例 如 ， 采 用 虚拟 索引 和 物理 标 
记 的 数据 cache 可 以 使 用 额外 的 逻辑 以 确保 其 行为 与 ARMv8 的 定义 一 致 。 


5.7.8 ”虚拟 存储 器 中 的 保护 


现今 ， 虚 拟 存储 器 最 重要 的 功能 是 允许 多 个 进程 共享 一 个 主 存 ， 同 时 为 这 些 进程 和 操作 
系统 提供 存储 保护 。 保 护 机 制 必须 确保 ， 即 使 多 个 进程 在 共享 同一 个 主 存 ， 恶 意 进程 不 能 向 
用 户 进程 的 地 址 空间 或 操作 系统 中 写 数据 (无论 有 意 或 是 无 意 )。TLB 中 的 写 访问 位 可 以 防 
止 页 被 改写 。 如 果 没有 这 一 级 保护 ， 计 算 机 病毒 将 更 加 泛滥 。 

为 了 使 操作 系统 能 为 虚拟 存储 系统 提供 保护 ,硬件 必须 至 少 提供 下 面 

总 结 的 三 种 基本 能 力 。 注意， 前 两 个 与 虚拟 机 的 需求 相同 。 
支持 至 少 两 种 模式 8， 这 两 种 模式 能 够 指明 当前 运行 的 进程 是 用 户 进程 还 是 操作 系统 进 
程 ， 操 作 系统 进程 (process) 也 称 为 管理 (supervisor) 进程 、 核 心 (kernel) 进程 或 者 
执行 (executive) 进程 。? 
。 提供 一 部 分 处 理 器 的 状态 ， 供 用 户 进程 读 但 不 能 写 。 这 些 状 

态 包括 指示 处 理 器 处 于 用 户 模式 还 是 管理 模式 的 用 户 /管理 | 第 下。 
模式 位 、 页 表 指针 、TLB。 操 作 系 统 使 用 仅 在 管理 模式 下 可 | 作 系统 进程。 

用 的 特殊 指令 对 这 些 状态 进行 写 。 

提供 让 处 理 器 能 够 在 用 户 模式 和 管理 模式 下 相互 切换 的 机 

制 。 从 用 户 模式 到 管理 模式 通常 由 系统 调用 ( system call) 异 | 二 各。 过 全 人 全 
常 处 理 完 成 ， 由 一 条 特殊 指令 (如 ARMv8 指令 集中 的 SVC) | 到 管理 模式 代码 空间 的 指 
将 控制 权 传 到 管理 代码 空间 的 指定 位 置 。 和 其 他 异常 一 样 。 | 定位 置 ， 乔 发 进程 中 的 措 
系统 调用 处 的 程序 计数 器 中 的 值 被 保存 在 异常 链接 寄存 器 | 宫 机 旬 


日 mode， 也 称 为 态 。 一 一 译 者 注 
加 这 里 的 “进程 ”与 操作 系统 中 的 “进程 ”概念 有 所 不 同 ， 这 里 更 侧重 于 “过 程 "， 读 者 应 注意 区 分 - 一 一 译 者 注 


物理 寻 址 cache : 使 用 物 
理 地 址 寻 址 的 cache。 
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(Exception Link Register,ELR) 中 ,处 理 器 被 置 于 管理 模式 。 从 异常 返回 至 用 户 模式 ， 
使 用 异常 返回 (Exception RETurn，ERET) 指令 ， 重 置 为 用 户 模式 ， 并 且 跳 转 到 ELR 
中 的 地 址 处 。 

通过 使 用 这 些 机 制 并 把 页 表 保 存在 操作 系统 的 地 址 空间 中 ， 操 作 系统 可 以 更 改 页 表 ， 并 
防止 用 户 进程 改变 它们 ， 确 保 用 户 进程 只 能 访问 由 操作 系统 提供 给 它 的 存储 空间 。 

我 们 同样 要 防止 一 个 进程 读 取 另 一 个 进程 的 数据 。 例 如 ， 我 们 不 希望 一 个 学 生 程 序 读 到 
处 理 器 主 存 中 的 教师 评分 。 一 旦 开始 共享 主 存 ， 我 们 必须 为 进程 提供 保护 ， 防 止 其 数据 被 其 
他 进程 读 或 写 ; 和 否则， 共享 主 存 将 变 得 乱七八糟。 

每 个 进程 都 有 自己 的 虚拟 地 址 空间 。 因 此 ， 如 果 操 作 系统 使 页 表 组 织 起 来 ， 那 么 独立 的 
虚拟 页 映射 到 不 相交 的 物理 页 上 ， 一 个 进程 就 无 法 访问 另 一 个 进程 的 数据 。 当 然 ， 这 也 要 求 
用 户 进程 不 能 改变 页 表 的 映射 。 如 果 操 作 系统 能 防止 用 户 进程 更 改 页 表 ， 那 么 操作 系统 就 能 
保证 安全 。 然 而 ， 操 作 系统 必须 能 够 修改 页 表 。 将 页 表 放 在 操作 系统 保护 的 地 址 空间 中 就 能 
满足 这 两 个 要 求 。 

当 进 程 希望 以 一 种 受 限 的 方式 共享 信息 时 ， 操 作 系统 必须 提供 支持 ， 因 为 访问 另 一 个 进 
程 的 信息 需要 改变 访问 进程 的 页 表 。 写 访问 位 可 以 用 来 把 共享 限制 为 只 读 ， 并 且 和 页 表 中 其 
他 位 一 样 ， 该 位 只 能 被 操作 系统 修改 。 为 了 允许 另 一 个 进程 P1 去 读 属于 进程 P2 的 页 ， 那 么 
P2 将 请 求 操作 系统 在 P1 地 址 空间 中 为 一 个 虚拟 页 生成 页 表 项 ， 指 向 P2 想 要 共享 的 同一 
物理 页 。 如果 P2 要 求 ， 操 作 系统 可 以 使 用 写 保护 位 以 防止 Pl 改写 数据 。 由 于 只 有 TLB 缺 
失 才 会 访问 页 表 ， 因 此 任何 决定 页 访问 权限 的 位 要 同时 包含 在 页 表 和 TLB 中 。 

B 凡 汕 当 操作 系统 决定 从 运行 进程 P1 切换 到 运行 进程 P2 ( 称 为 
上 下 文 切换 ( context switch)， 或 者 进程 切换 ) 时 ， 必 须 保证 P2 不 能 | 上下文 切换 ， 为 允许 另 一 
访问 P1 的 页 表 ， 和 否则 会 影响 数据 保护 。 如 果 没 有 TLB， 只 要 使 页 表 人 
寄存 器 指向 P2 的 页 表 (而 不 是 P1 的 ) 就 足够 了 ; 如 果 有 TLB， 我 们 “| @ 括 保存 状态 以 便 返 回归 
必须 清除 属于 Pl 的 TLB 表 项 一 一 不 仅 为 了 保护 P1 的 数据 ， 而且 可 | 前 正在 执行 的 进程。 

以 迫使 TLB 装 入 P2 的 表 项 。 如 果 进 程 切换 的 频率 很 高 ， 这 样 做 的 效 

率 就 很 低 。 例 如 ， 在 操作 系统 切换 回 Pl 之 前 ，P2 可 能 只 装 入 了 很 少 的 TLB 表 项 。 不 幸 的 是 ， 
P1 随后 发 现 其 所 有 的 TLB 表 项 都 不 见 了 ， 必 须 通 过 TLB 缺失 来 重新 加 载 。 产 生 该 问题 的 原 
因 是 ，P1 和 P2 的 虚拟 地 址 空间 是 相同 的 ， 并 且 必 须 清除 TLB 以 防止 这 些 地 址 的 混淆 。 

另 一 种 常用 的 方法 是 通过 增加 一 个 进程 标识 符 (process identifier) 或 任务 标识 符 ( task 
identifier) 来 扩展 虚拟 地 址 空间 。Intrinsity FastMATH 有 一 个 8 位 地 址 空间 标识 (Address 
Space ID，ASID) 字段 。 这 个 字段 标识 了 当前 正在 运行 的 进程 ; 当 进 程 切换 时 ， 它 保存 在 由 
操作 系统 装 入 的 寄存 器 中 。ARMv8 也 提供 了 ASID 来 减少 上 下 文 切换 时 的 TLB 刷新 。 进 程 
标识 符 与 TLB 的 标记 部 分 相连 接 ， 因 此 只 有 在 页 号 和 进程 标识 符 匹 配 时 ，TLB 才 会 命中 。 
这 样 的 话 ， 除 非 极 少 的 偶然 情况 ， 这 种 组 合 就 可 以 消除 清除 TLB 的 需要 。 

cache 中 也 可 能 发 生 类 似 的 问题 ， 因 为 在 进程 切换 的 时 候 ，cache 将 包含 正在 运行 的 进 
程 的 数据 。 对 于 物理 寻 址 和 虚拟 寻 址 的 cache， 这 些 问 题 将 以 不 同 的 方式 产生 ， 并 且 有 不 同 
的 解决 方法 ， 例 如 进程 标识 符 用 于 确保 一 个 进程 能 获得 自己 的 数据 。 


5.7.9 处 理 TLB 缺失 和 缺 页 
尽管 在 TLB 命中 时 利用 TLB 将 虚拟 地 址 转换 成 物理 地 址 简单 直接 ,但 如 我 们 前 而 所 
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看 到 的 ， 处 理 TLB 缺失 和 缺 页 要 复杂 得 多 。 当 TLB 中 没有 一 个 表 项 能 与 虚拟 地 址 匹配 时 
TLB 缺失 就 会 产生 。 回 顾 TLB 缺失 ， 其 有 下 面 两 种 可 能 : 

。 页 在 主 存 中 ， 只 需要 创建 缺失 的 TLB 表 项 。 

。 页 不 在 主 存 中 ， 需 要 将 控制 权 交 给 操作 系统 来 处 理 缺 页 。 

处 理 TLB 缺失 或 者 缺 页 需要 使 用 异常 机 制 来 中 断 活跃 的 进程 ， 将 控制 权 转移 给 操作 系 
统 ， 然 后 恢复 执行 被 中 断 的 进程 。 缺 页 将 在 访 存 时 钟 周期 的 某 一 时 刻 被 发 现 。 为 了 在 缺 页 
处 理 完毕 后 重新 启动 指令 ， 这 条 引起 缺 页 的 指令 的 程序 指针 必须 被 保存 。 异 常 链接 寄存 器 
(ELR) 就 用 来 保存 这 个 值 。 

此 外 ，TLB 缺失 或 者 缺 页 异常 必须 在 访 存 发 生 的 同一 个 时 钟 周期 的 未 尾 被 判定 ， 从 而 下 
一 个 时 钟 周期 将 开始 进行 异常 处 理 而 不 是 继续 正常 指令 的 执行 。 如 果 在 该 时 钟 周期 没有 识别 
到 缺 页 ,那么 一 条 load 指令 可 能 会 改写 寄存 器 ， 而 当 我 们 试图 重新 启动 该 指令 时 ， 这 可 能 引 
发 灾难 。 例 如 ， 考 虑 指令 LDUR X1, [Xx1,#0] : 计算 机 必须 防止 写 流水 级 发 生 ， 否 则 ， 就 可 
能 不 能 重新 启动 指令 ， 因 为 xl 的 内 容 将 被 破坏 。store 指令 有 时 也 会 发 生 类 似 的 复杂 情况 。 
当 出 现 缺 页 时 ， 我 们 必须 防止 实际 写 人 内 存 ; 这 通常 通过 将 主 存 写 控制 线 置 为 无 效 来 完成 。 

本 7 种 撕 本 在 操作 系统 开始 进行 异常 处 理 和 保存 完毕 进 
程 所 有 状态 的 时 刻 之 间 ， 操 作 系统 特 别 脆弱 。 例 如 ， 如 果 在 操作 系 pie rh 
统 正在 处 理 第 一 个 异常 时 ， 另 一 个 异常 又 发 生 了 ， 控 制 单元 将 重 写 | 局 况 常 的 信号 或 动作 ;在 
异常 链接 寄存 器 ， 那 么 就 不 能 返回 到 引起 缺 页 的 那 条 指令 。 我 们 可 | 处 理 器 安全 地 保存 重启 所 
以 通过 提供 禁止 ( disable) 和 使 能 异常 (enable exception) 来 避免 议 | 需 的 状态 之 前 ， 必 须 阻止 
种 灾难 。 当 一 个 异常 第 一 次 发 生 时 ， 处 理 器 设置 一 个 位 ， 以 禁止 其 【并 党 的 发 生 。 

他 异常 的 发 生 ; 这 可 以 与 处 理 器 设置 管理 模式 位 同时 进行 。 操 作 系 

统 随后 保存 足够 用 以 恢复 的 状态 ( 若 有 另 一 个 异常 发 生 )， 即 异常 链接 寄存 器 ( ELR) 和 异常 
特征 寄存 器 (ESR)， 后 者 在 第 4 章 中 提 到 过 ， 用 以 记录 异常 的 原因 。ARMv8 中 的 ELR 和 
ESR 是 两 个 特殊 的 控制 器 寄存 器 ， 用 以 协助 处 理 异常 、TLB 缺失 以 及 缺 页 。 然 后 ， 操 作 系统 
可 以 重新 使 能 异常 ， 即 允许 异常 发 生 。 这 些 步骤 保证 了 异常 不 会 造成 处 理 器 丢失 任何 状态 
从 而 不 会 出 现 无 法 重新 执行 中 断 指令 的 情况 。 

一 旦 操作 系统 知道 了 造成 缺 页 的 虚拟 地 址 ， 就 必须 完成 以 下 三 个 步 又， 

1. 使 用 虚拟 地 址 查找 页 表 项 ， 并 在 二 级 存储 器 上 找到 被 访问 的 页 的 位 置 。 

2. 选择 一 个 物理 页 替换 ;如果 被 选中 的 页 是 胜 页 (被 修改 过 )， 那 么 在 把 新 的 虚拟 页 装 人 
这 个 物理 页 之 前 ， 必 须 先 将 这 个 物理 页 写 回 到 二 级 存储 器 上 。 

3. 启动 读 操 作 ， 将 被 访问 的 页 从 二 级 存储 器 上 取 回 到 所 选择 的 物理 页 上 。 

当然 ， 最 后 一 步 将 花费 数 百 万 个 时 钟 周 期 (如 果 被 蔡 换 的 页 是 脏 页 ， 那 么 第 二 步 也 需要 
花费 这 么 多 时 间 ); 因此 ， 操 作 系 统 通常 都 会 选择 另 一 个 进程 在 处 理 器 上 执行 ， 直 到 磁盘 访 
问 完成 。 由 于 操作 系统 已 经 保存 了 当前 进程 的 状态 ， 因 此 可 以 将 控制 权 交 给 男 一 个 进程 。 

当 从 二 级 存储 器 读 页 面 完 成 后 ， 操 作 系统 可 以 恢复 原先 引起 缺 页 的 进程 的 状态 ， 并 且 执 
行 从 异常 返回 的 指令 。 该 指令 将 处 理 器 从 核心 模式 恢复 到 用 户 模式 ， 同 时 恢复 程序 计数 器 的 
值 。 用 户 进程 接着 重新 执行 引发 缺 页 的 那 条 指令 ， 成 功 地 访问 请 求 的 页 ， 然 后 继续 执行 。 

数据 访问 引起 的 缺 页 异常 处 理 很 难 在 处 理 器 中 正确 实现 ， 原 因 在 于 以 下 三 个 特性 ， 

。 它们 发 生 于 指令 中 间 ， 不 同 于 指令 缺 页 。 

。 在 异常 处 理 之 前 指令 没有 结束 。 
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e@ 异常 处 理 之 后 ,指令 必须 重新 执行 ， 就 好 像 什么 都 没 发 生 过 。 | 可 重启 指令 : 一 种 可 以 在 

使 指令 可 重新 启动 ( restartable) (以 便 能 够 处 理 异常 并 在 异常 处 ”| 异常 处 理 结束 后 恢复 执行 
理 结束 后 继续 执行 指令 )， 这 在 类 似 于 ARMv8 的 结构 中 实现 起 来 相 | 全， 于 
对 简单 。 因 为 每 条 指令 只 能 写 一 个 数据 项 并 且 只 在 指令 周期 的 最 后 
进行 写 ,我 们 可 以 简单 地 阻止 指令 的 完成 (不 执行 写 操作 ) 并 且 在 开始 处 重新 启动 指令 。 

网 角 对 于 有 着 更 为 复杂 指令 的 处 理 器 来 说 ， 可 能 会 访问 主 存 中 的 很 多 位 置 并 且 写 很 多 
数据 项 ， 因 此 使 指令 可 重新 启动 更 为 困难 。 处 理 一 条 指令 可 能 会 在 指令 中 间 产 生 多 次 缺 页 。 
例如 ，x86 处 理 器 有 块 移动 指令 ， 能 够 访问 上 千 个 数据 字 。 在 这 类 处 理 嚣 中， 指令 通常 无 法 
从 起 始 位 置 重 新 启动 ， 比 如 ARMv8 指令 。 相 反 ， 指 令 必 须 被 中 断 ， 稍 后 从 执行 中 间 (中 断 ) 
处 继续 执行 。 在 指令 执行 的 中 间 恢 复 一 条 指令 通常 需要 保存 一 些 特殊 状态 ， 处 理 异常 ， 然 后 
恢复 这 些 特殊 状态 。 要 正确 地 执行 这 项 工作 需要 在 操作 系统 的 异常 处 理 代码 和 硬件 间 细 致 而 
周密 的 协调 协作 。 

情 绩 | 与 每 次 访 存 都 需要 额外 一 级 间接 寻 址 不 同 ， 虚 拟 存储 器 监视 器 (virtual memory 
monitor) ( 见 5.6 节 ) 使 用 影子 页 表 ( shadow page table) 直接 从 用 户 虚拟 地 址 空间 映射 到 
硬件 物理 地 址 空间 。 通 过 检测 对 用 户 页 表 的 所 有 修改 ，VMM 可 以 确保 硬件 正在 用 于 转换 
的 影子 页 表 表 项 与 客户 操作 系统 中 的 页 表 表 项 一 致 ， 但 除去 正确 的 物理 页 替换 了 用 户 表 项 
中 真正 的 页 之 外 。 因 此 ，VMM 必须 在 客户 操作 系统 试图 改变 其 页 表 或 访问 页 表 指 针 时 产 
生 陷 入 。 这 通常 由 客户 操作 系统 通过 对 用 户 页 表 进 行 写 保护 和 对 页 表 指 针 的 任何 访问 产生 
陷入 来 实现 。 如 前 所 述 ， 如 果 访 问 页 表 指 针 是 一 个 特权 操作 ， 那 么 后 一 种 情况 就 会 自然 
产生 。 

情 钥 体系 结构 中 虚拟 化 的 最 后 一 部 分 是 IJO。 由 于 计算 机 中 1/O 设备 数量 和 类 型 不 断 
增加 ，LO 虚拟 化 就 变 成 了 系统 虚拟 化 中 最 难 的 一 部 分 。 另 一 个 难点 是 在 多 个 虚拟 机 间 共 享 
一 个 实际 设备 ， 还 有 一 个 难点 是 要 支持 各 种 各 样 的 设备 驱动 程序 ， 特 别 是 在 同一 个 虚拟 机 上 
支持 多 个 客户 操作 系统 时 更 为 困难 。 通 过 给 每 个 VM 提供 每 种 IO 设备 的 通用 驱动 版 本 ， 并 
留 给 VMM 来 管理 实际 的 IJO， 可 使 VM 虚拟 化 得 到 维持 。 

亢 钥 ;除了 为 虚拟 机 进行 指令 集 虚 拟 化 之 外 ， 另 一 个 挑战 是 虐 拟 化 存储 器 ， 因 为 每 个 虚 
拟 机 上 的 每 个 客户 操作 系统 都 要 管理 自己 的 页 表 。 为 了 完成 这 一 工作 ，VMM 区 分 了 实 存储 
器 (real memory) 和 物理 存储 器 ( physical memory) 两 个 不 同 的 概念 (这 两 个 概念 经 常 被 看 
作 相 同 的 )， 实 存储 器 是 位 于 虚拟 存储 器 和 物理 存储 器 之 间 的 一 个 独立 的 层次 。( 有 人 使 用 虚 
拟 存 储 器 、 物 理 存 储 器 和 机 器 存储 器 来 表示 相同 的 三 个 层次 。) 客户 操作 系统 通过 页 表 将 虚拟 
存储 器 映射 到 实 存储 器 ，VMM 页 表 将 客户 实 存储 器 映射 到 物理 存储 器 ， 虚 拟 存 储 器 体系 结 
构 通过 页 表 来 指定 ， 如 IBM VM/370、x86 和 ARMv8 中 的 做 法 。 


5.7.10 小 结 


虚拟 存储 器 是 管理 主 存 和 二 级 存储 器 之 间 数 据 缓 存 的 存储 器 层次 。 虚 拟 存储 器 允许 单 个 
程序 将 地 址 空间 扩展 到 主 存 的 界限 之 外 。 更 重要 的 是 ， 虚 拟 存储 器 支持 以 一 种 保护 方式 在 多 
个 同时 活跃 的 进程 间 共 享 主 存 。 

因为 缺 页 的 代价 很 高 ， 因 此 管理 主 存 和 磁盘 之 间 的 存储 器 层次 非常 有 挑战 性 。 下 面 几 种 
技术 可 以 用 来 降低 缺失 率 : 

。 增加 页 大 小 以 利用 空间 局 部 性 并 降低 缺失 率 。 
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。 通过 页 表 实现 虚拟 地 址 和 物理 地 址 之 间 的 映射 采用 全 相 联 的 方式 ， 从 而 虚拟 页 可 以 放 
置 到 主 存 中 的 任何 位 置 。 

。 操作 系统 使 用 类 似 LRU 和 访问 位 之 类 的 技术 来 选择 被 蔡 换 的 页 。 

写 二 级 存储 器 代价 很 高 ， 因 此 虚拟 存储 器 使 用 写 回 机制 ， 并 跟踪 记录 一 个 页 面 是 否 未 被 
修改 (采用 脏 位 ) 以 避免 将 干净 的 页 写 回 。 

虚拟 存储 器 提供 从 程序 使 用 的 虚拟 地 址 到 用 来 访问 主 存 的 物理 地 址 空间 之 间 的 转换 。 该 
地 址 转换 允许 对 主 存 进行 受 保护 的 共享 ， 同 时 还 提供 了 一 些 额外 的 好 处 ， 比 如 简化 存储 器 的 
分 配 。 为 了 保证 进程 间 受 到 保护 ， 要 求 只 有 操作 系统 才能 改变 地 址 转换 ， 这 通过 防止 用 户 程 
序 更 改 页 表 来 实现 。 在 进程 间 受 控 地 共享 页 可 以 在 操作 系统 和 页 表 中 的 访问 位 (指明 用 户 程 
序 是 对 页 进行 读 还 是 写 ) 的 协助 下 实现 。 

如 果 对 于 每 一 次 访问 ， 处 理 器 都 要 访问 主 存 中 的 页 表 来 进行 转换 ， 那 么 虚拟 存储 器 的 开 
销 就 太 大 了 ，cache 也 将 失去 意义 。 相 反 ，TLB 在 从 页 表 的 转换 中 扮演 了 cache 的 角色 。 使 
用 TLB 中 的 转换 ， 虚 拟 地 址 被 转换 为 物理 地 址 。 

cache 、 虚 拟 存储 器 和 TLB 都 依赖 于 一 组 共同 的 原理 和 策略 。 下 节 将 对 此 进行 讨论 。 

| 中 崩 程序 征 胡 | 尽管 构建 虚拟 存储 器 的 目的 是 使 一 个 小 容量 的 存储 器 看 起 来 像 一 个 大 容 
量 的 存储 器 ， 但 二 级 存储 器 和 主 存 之 间 的 性 能 差异 意味 着 ， 如 果 一 个 程序 经 常 访问 的 虚拟 存 
储 器 比 其 拥有 的 物理 存储 器 多 ， 那 么 程序 会 运行 得 非常 慢 。 这 样 一 个 程序 会 不 断 地 在 主 存 和 
二 级 存储 器 之 间 交换 页 面 ， 称 为 拉动 (thrashing)。 拌 动 的 发 生 将 会 造成 灾难 ， 但 拌 动 本 身 很 
少 发 生 。 如 果 你 的 程序 产生 拌 动 ， 那 么 最 简单 的 解决 方法 就 是 让 该 程序 运行 在 一 个 存储 器 更 
大 的 计算 机 上 ,或 者 为 你 的 计算 机 购买 更 多 /更 大 的 存储 器 。 一 个 更 复杂 的 办 法 是 重新 检查 
所 用 的 算法 和 数据 结构 ， 看 看 能 否 改 变局 部 性 ， 从 而 减少 程序 同时 使 用 的 页 数 。 这 一 组 页 通 
常 被 通俗 地 称 为 工作 集 (working set)。 

一 个 更 常见 的 性 能 问题 是 TLB 缺失 。 由 于 一 个 TLB 可 能 只 能 同时 处 理 32 ~ 64 个 页 表 
项 ， 因 此 程序 很 容易 有 较 高 的 TLB 缺失 率 一 一 处 理 器 只 能 直接 访问 不 到 四 分 之 一 MiB， 即 
64x4KiB = 0.25MiB。 例 如 ， 对 于 基数 排序 , TLB 缺失 通常 是 一 个 挑战 。 为 了 缓解 这 个 问题 
现在 很 多 计算 机 体系 结构 都 支持 更 大 的 页 面 。 例 如 ， 除 了 最 小 4KiB 的 页 面 ，ARMv8 硬件 还 
支持 2MiB 和 1GiB 大 小 的 页 面 。 因 此 ， 如 果 程 序 使 用 大 页 面 ， 该 程序 就 能 直接 访问 更 多 主 
存 而 没有 TLB 缺失 。 

实际 的 挑战 在 于 令 操作 系统 允许 程序 选择 这 些 较 大 容量 的 页 面 。 此 外 ， 减 少 TLB 缺失 更 
为 复杂 的 一 种 方法 是 重新 检查 算法 和 数据 结构 ， 以 减少 页 面 工作 集 ， 另外， 考虑 到 存储 器 访 
问 对 于 性 能 以 及 TLB 缺失 率 至 关 重要 ， 一 些 工作 集 较 大 的 程序 已 经 在 这 方面 做 了 重新 设计 。 

| 嘛 普 ARMv8 通过 图 5-29 所 示 的 多 级 页 表 支 持 较 大 的 页 面 。 除 了 在 第 一 、 二 级 指向 下 
一 级 页 表 外 ， 还 允许 块 转换 (block translation)， 将 虚拟 地 址 映射 到 1GiB 的 物理 地 址 上 (如 
果 块 转换 在 第 一 级 )， 或 映射 到 2MiB 的 物理 地 址 上 (如果 块 转换 在 第 二 级 )。 如 果 最 小 的 页 
面 大 于 4KiB， 那 么 块 转换 也 会 更 大 : 对 于 16KiB 的 页 大 小 为 4GiB 和 32MiB， 对 于 64KiB 
的 页 大 小 为 4096GiB 和 512MiB。 

哺 钥 ARMv8 具有 很 多 的 选项 和 优化 方法 ， 本 书 因 篇 幅 所 限 没有 涉及 ; 在 ARMv8 结构 
手册 中 ， 关 于 虚拟 内 存 的 描述 就 有 200 页 。 例如， 虽然 最 小 的 系统 仅 有 两 个 异常 级 别 ( ELO 
和 EL1 )， 但 为 了 支持 虚拟 机 监视 器 ， 增 加 了 可 选 的 第 三 异常 级 别 (EL2 ) 和 第 四 异常 级 别 
( EL3 ) 用 于 安全 机 制 监视 器 。 每 一 级 都 有 特定 的 ELR 和 ESR。 为 了 从 TLB 中 获取 更 大 的 性 
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能 ，ARMv8 提供 了 一 个 隐藏 的 机 制 ， 即 单个 表 项 可 以 对 应 16 个 具有 同样 权限 和 属性 的 连续 
范围 (contiguous range)， 从 而 将 该 表 项 可 达 的 范围 扩展 到 16 的 倍数 。 相 比 于 一 组 芯片 ， 为 
了 向 同一 臣 片 内 的 核 提供 不 同类 型 的 共享 地 址 ，ARMv8 区 分 了 内 部 共享 ( inner sharability) 
和 外 部 共享 (outer sharability)， 前 者 总 是 共享 与 后 者 相同 的 域 。 








5.8 存储 器 层次 结构 的 一 般 框架 

到 目前 为 止 ， 你 可 能 已 经 发 现 不 同类 型 的 存储 器 层次 结构 都 有 一 个 共同 的 思想 。 尽 管 存 
储 器 层次 结构 中 很 多 方面 都 有 量 的 区 别 ， 但 决定 层次 结构 功能 的 许多 策略 和 特性 性 质 上 是 相同 
的 。 图 5-34 给 出 了 存储 器 层次 结构 的 一 些 定量 特征 的 区 别 。 本 节 的 剩余 部 分 将 讨论 存储 器 层 
次 结构 的 一 些 通用 操作 ， 以 及 这 些 操作 如 何 决定 它们 的 行为 。 我 们 通过 四 个 问题 来 考察 存储 器 
层次 结构 中 任意 两 个 层次 之 间 使 用 的 策略 。 为 了 简单 起 见 ， 我 们 主要 使 用 cache 中 的 术语 。 
































总 块 数 250~2000 | 2500-~25000 16 000 ~ 250 000 40~ 1024 
总 KB 数 | _ 16-64 | 125~2000 1 000 000 ~ 1000 000 000 0.25~16 
块 字 节 数 | 16-64 64~ 128 4000 ~ 64 000 4~32 
缺失 代价 的 时 钟 周 期 数 ”| 10~25 100~ 1000 10 000 000 ~ 100 000 000 10 ~ 1000 
缺失 率 ( 二 级 cache 是 全 局 缺失 )| ”2%~ 5% 0.1%~ 2% 0.00001% ~ 0.0001% | 0.01%~2% 
图 5-34 反映 计算 机 存储 器 层次 结构 中 主要 元 素 特征 的 关键 定量 设计 参数 。 这 些 层次 的 数值 是 2012 年 


的 典型 值 。 值 的 范围 很 大 ， 一 部 分 原因 是 随时 间 推 移 的 很 多 值 都 是 相关 的 ;例如 ， 当 cache 
容量 变 大 以 克服 较 高 的 缺失 代价 时 ， 抉 容量 也 随 之 增长 。 图 中 没有 显示 的 是 ， 当 今 服务 器 处 
理 器 中 还 有 三 级 cache， 通 常 容量 为 2 ~ 8MiB， 块 数 比 二 级 cache 多 很 多 。 三 级 cache 将 二 
级 cache 的 缺失 代价 降低 到 30 一 40 个 时 钟 周期 


5.8.1 问题 1: 块 放 在 何 处 


我 们 已 经 看 到 ， 高 层 存储 器 层次 结构 中 有 很 多 块 替换 策略 ， 从 直接 映射 到 组 相 联 ， 再 到 
全 相 联 。 如 前 所 述 ， 这 些 不 同 的 机 制 都 可 以 看 成 组 数 和 每 组 块 数 不 同 的 组 相 联 特 例 : 




















直接 映射 | ”cache 中 的 块 数 1 
| cache 中 的 块 数 a 
I Re | 相 联 度 相 联 度 ( 一 般 为 2~ 16 ) 
全 相 联 | 1 | cache 中 的 块 数 








增加 相 联 度 的 好 处 是 通常 能 降低 缺失 率 。 缺 失 率 的 改进 来 自 于 减少 竞争 同一 位 置 而 产 
生 的 缺失 。 稍 后 会 对 此 详细 讨论 。 首 先 来 看 看 能 获得 多 少 性 能 改进 。 图 5-35 显示 了 不 同 的 
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cache 容量 和 相 联 度 (从 直接 映射 到 八路 组 相 联 ) 下 的 缺失 率 。 最 大 的 改进 出 现在 直接 映射 变 
化 到 两 路 组 相 联 的 时 候 , 缺失 率 下 降 了 20% 一 30%。 当 cache 容量 增加 时 ， 相 联 度 带 来 的 改 
进 变 化 很 小 ， 因 为 容量 越 大 的 cache 总 缺失 率 越 低 ， 因 而 缺失 率 改 进 的 机 会 减少 ， 并 且 由 相 
联 度 引起 的 缺失 率 的 改进 显著 缩减 。 如 前 所 述 ， 相 联 度 增加 的 潜在 缺点 是 增加 了 代价 以 及 访 
问 时 间 。 


图 5-35 8 种 不 同 容量 数据 cache 相 联 度 增加 时 
的 缺失 率 。 从 一 路 (直接 映射 ) 到 两 路 
组 相 联 变化 时 获 益 显著 ， 但 进一步 增加 
相 联 度 所 获得 的 好 处 相对 小 一 些 (例如 ， 
从 两 路 到 四 路 提高 了 1% 一 10%， 而 从 
一 路 到 两 路 提高 了 20% 一 30%)。 从 四 
路 到 八路 组 相 联 的 改进 更 少 ， 接 近 于 全 
相 联 cache 的 缺失 率 。 小 容量 cache 从 
相 联 度 获 得 的 绝对 收益 相对 更 大 ， 因 
一 路 两 路 四 路 八路 为 小 容量 cache 本 身 的 缺失 率 更 高 。 
相 联 度 图 5-16 解释 了 这 些 数 据 是 如 何 收集 的 


5.8.2 问题 2: 如 何 找 到 块 
如 何 选 择 一 个 块 的 存放 位 置 取决 于 块 放置 机 制 ， 可 能 的 位 置 数 由 机 制 确定 。 这 些 机 制 可 
以 总 结 如 下 : 


相爱 认 EB 





























直接 映射 索引 
组 相 联 索引 组 ， 查 找 组 中 元 素 相 联 度 
查找 所 有 cache 项 cache 容 量 
ee 独立 的 查找 表 | 0 











在 存储 器 层次 结构 中 选择 直接 映射 、 组 相 联 还 是 全 相 联 映射 取决 于 缺失 代价 和 相 联 度 实 
现代 价 之 间 的 权衡 ,包括 时 间 和 额外 的 硬件 开销 。 在 片上 包含 二 级 cache 允许 实现 更 高 的 相 
联 度 ， 因 为 命中 时 间 不 再 关键 ,设计 者 也 不 需要 依靠 标准 SRAM 芯片 来 构建 块 。 除 非 容 量 
很 小 ， 和 否则 一 般 避 免 使 用 全 相 联 cache。 因 为 对 于 小 容量 cache， 比 较 器 的 开销 并 不 是 压倒 性 
的 因素 ， 而 绝对 缺失 率 的 改进 是 最 明显 的 。 

在 虚拟 存储 器 系统 中 ， 页 表 是 一 个 独立 的 映射 表 ， 用 来 索引 存储 器 。 除 了 表 本 身 需 要 占 
用 存储 资源 外 ， 使 用 索引 表 还 需要 一 次 额外 的 访 存 。 选 择 全 相 联 作为 页 替换 策略 并 选择 额外 
的 页 表 ， 有 以 下 几 个 原因 : 

。 全 相 联 可 以 带 来 收益 ， 因 为 缺失 代价 非常 昂贵 。 

。 全 相 联 允 许 软件 使 用 复杂 的 蔡 换 策略 以 降低 缺失 率 。 

。 全 映射 很 容易 被 索引 ， 不 需要 额外 的 硬件 ， 也 不 需要 进行 查找 。 

因此 ， 虚 拟 存储 系统 通常 使 用 全 相 联 蔡 换 策略 。 

组 相 联 策略 通常 用 于 cache 和 TLB ， 访 问 时 包括 索引 和 在 一 个 小 组 内 查找 。 一 些 系统 使 
用 直接 映射 的 cache， 这 是 因为 其 访问 时 间 短 且 实现 简单 。 访 问 时 间 短 是 因为 不 需要 比较 就 
能 找到 被 请 求 的 块 。 这 样 的 设计 选择 取决 于 很 多 的 细节 实现 ， 如 cache 是 否 集成 在 片上 ， 实 
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现 cache 的 技术 ， 以 及 cache 访问 时 间 对 确定 处 理 器 时 钟 周期 长 短 的 重要 性 。 


5.8.3 ”问题 3: cache 缺失 时 蔡 换 哪 一 块 


在 相 联 的 cache 中 发 生 缺 失 时 ， 必 须 决 定 蔡 换 哪 一 块 。 如 果 是 全 相 联 cache， 所 有 的 块 
都 是 可 被 蔡 换 的 候选 者 。 如 果 cache 是 组 相 联 的 ， 我们 必须 在 某 一 组 的 块 中 进行 选择 。 当 
然 ， 直 接 映 射 cache 的 替换 很 简单 ， 因 为 只 有 一 个 候选 者 。 

在 组 相 联 或 全 相 联 cache 中 ， 有 两 种 主要 的 替换 策略 : 

。 随机 : 随机 选择 候选 块 ， 可 能 使 用 一 些 硬件 辅助 实现 。 

e 最 近 最 少 使 用 (LRU): 被 蔡 换 的 块 是 最 久 没有 被 使 用 过 的 块 。 

在 实际 应 用 中 ， 在 多 个 相 联 度 (典型 的 是 两 路 到 四 路 ) 的 层次 结构 中 ， 跟 踪 使 用 信息 的 
代价 很 高 ， 因 此 LRU 策略 的 实现 代价 太 高 。 甚 至 对 于 四 路 组 相 联 ，LRU 通常 也 是 近似 实现 
的 ， 例 如 ， 跟 踪 记 录 哪 一 对 块 是 最 近 最 少 使 用 的 〈 需 要 1 位 )， 然 后 跟踪 记录 每 一 对 中 哪 一 块 
又 是 最 近 最 少 使 用 的 (每 对 需要 1 位 )。 
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对 于 更 高 的 相 联 度 ， 可 以 使 用 近似 的 LRU 算法 ， 或 采用 随机 替换 策略 。 在 cache 中 ， 
替换 算法 是 由 硬件 实现 的 ， 这 意味 着 算法 应 当 易 于 实现 。 随 机 替换 很 容易 用 硬件 实现 ， 而 对 
于 两 路 组 相 联 的 cache， 随 机 替换 策略 的 缺失 率 要 比 LRU 替换 算法 的 缺失 率 高 1.1 倍 。 随 着 
cache 变 得 更 大 ， 两 种 替换 策略 的 缺失 率 都 下 降 了 ， 绝 对 差别 也 变 小 了 。 事 实 上 ， 随 机 替换 
有 时 比 易于 硬件 实现 的 简单 近似 LRU 算法 性 能 更 好 。 

在 虚拟 存储 器 中 ， 一 些 LRU 都 是 近似 的 ， 因 为 当 缺 失 代 价 巨大 时 ， 缺 失 率 的 一 点 微小 
的 降低 都 是 很 重要 的 。 引 用 位 或 其 他 等 价 的 功能 通常 用 来 使 操作 系统 更 方便 地 追踪 一 组 最 近 
较 少 使 用 的 页 。 由 于 缺失 代价 太 高 ， 并 且 缺 失 相对 来 说 不 常 发 生 ， 因 此 主要 用 软件 来 近似 这 
些 信息 是 可 以 接受 的 。 


5.8.4 问题 4: 写 操作 如 何 处 理 


任何 存储 器 层次 结构 的 一 个 关键 问题 是 如 何 处 理 写 操作 。 我 们 已 看 到 了 两 种 基本 选项 : 

。 写 直 达 ， 信息 被 同时 写 到 cache 中 的 块 和 较 低 存储 器 层次 结构 的 块 中 (对 cache 而 言 
是 主 存 )。5.3 节 中 的 cache 使 用 该 机 制 。 

。 写 回 ; 信息 仅 被 写 到 cache 中 的 块 。 改 动 过 的 块 只 有 在 被 替换 时 才 被 写 到 较 低 的 存储 
器 层次 中 。 虚 拟 存储 器 系统 通常 采用 写 回 策略 ， 原 因 在 5.7 节 中 讨论 过 。 

写 回 和 写 直达 策略 都 有 优点 。 写 回 的 关键 优点 如 下 : 

e 处 理 器 可 以 以 cache 而 不 是 存储 器 能 接收 的 速度 写 单个 的 字 。 

。 同一 块 内 的 多 次 写 只 需 对 存储 器 层次 结构 的 较 低层 写 一 次 。 

。 当 块 被 写 回 时 ， 由 于 是 写 一 整 块 ， 系 统 可 以 有 效 利用 高 传输 带宽 。 

写 直 达 的 优点 如 下 : 

。 缺失 较 简单 ， 代 价 较 小 ， 因 为 不 需要 把 整个 块 写 回 到 较 低 的 存储 器 层次 中 。 

。 写 直达 比 写 回 更 易于 实现 ， 但 写 直达 cache 仍 需要 一 个 写 缓冲 区 。 

在 虚拟 存储 器 系统 中 ， 由 于 写 较 低 的 存储 器 层次 延迟 很 大 ， 因 此 只 有 写 回 策略 是 可 行 
的 。 尽 管 允 许 存 储 器 的 物理 、 逻 辑 宽度 更 宽 . 并 对 DRAM 采用 突 发 模式 ,但 处 理 器 产生 写 
操作 的 速度 通常 还 是 超过 存储 系统 可 以 处 理 的 速度 。 因 此 ， 目 前 最 低 一 级 的 cache 通常 采用 
写 回 策略 。 
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喇 硕 cache、TLB 和 虚拟 存储 器 可 能 开始 看 起 来 非常 不 同 ， 但 其 实 都 基于 两 个 相同 的 


局 部 性 原理 ， 并 且 可 以 通过 对 以 下 四 个 问题 的 回答 来 理解 。 
问题 1: 块 可 以 被 放 在 何 处 ? 
答 : 一 个 位 置 (直接 映射 )， 一些 位 置 (组 相 联 )， 或 任何 位 置 (全 相 联 )。 
问题 2: 如 何 找到 块 ? 


答 : 有 四 种 方法 : 索引 (在 直接 映射 cache 中 )， 有 限 的 查找 (在 组 相 联 cache 中 )， 
全 部 查找 (在 全 相 联 cache 中 )， 以 及 单独 的 查找 表 (在 页 表 中 )。 


问题 3: 失效 时 替换 哪 一 块 ? 

答 : 通常 是 最 近 最 少 使 用 的 块 或 随机 选取 的 一 块 。 
问题 4: 如 何 处 理 写 操作 ? 

答 : 层次 结构 中 的 每 一 层 都 可 以 使 用 写 直达 或 写 回 策略 。 


5.8.5 3C: 一 种 理解 存储 器 层次 结构 行为 的 直观 模型 


本 节 介 绍 一 个 模型 ， 通 过 该 模型 能 够 很 好 地 洞察 存储 器 层次 结 
构 中 引起 缺失 的 原因 ， 以 及 层次 结构 的 变化 对 缺失 的 影响 。 我 们 以 
cache 来 解释 这 些 观点 ， 尽 管 这 个 观点 对 其 他 层次 也 直接 适用 。 在 该 
模型 中 ， 所 有 的 缺失 被 划 为 下 三 类 ( 3C 模型 ) 之 一 : 
e 强制 缺失 (Compulsory miss); 对 从 未 在 cache 中 出 现 的 块 第 一 
次 进行 访问 引起 的 缺失 。 也 称 为 冷 启动 缺失 (cold-start miss)。 
。 容量 缺失 ( Capacity miss) : 由 于 cache 容纳 不 了 一 个 程序 执 
行 中 所 需要 的 所 有 块 而 引起 的 cache 缺失 。 当 块 被 替换 出 去 ， 
随后 再 被 调 人 时 ， 将 发 生 容量 缺失 。 
。 冲突 缺失 (Conflict miss): 在 组 相 联 或 直接 映射 cache 中 ， 多 
个 块 竞争 同一 个 组 时 引起 的 cache 缺失 。 冲 突 缺 失 在 直接 映 
射 或 组 相 联 cache 中 存在 ， 而 在 同样 大 小 的 全 相 联 cache 中 
不 存在 。 这 种 cache 缺失 也 称 为 碰撞 缺失 (collision miss) 。 
图 5-36 显示 了 缺失 率 如 何 划 分 为 以 上 三 种 原因 。 改 变 cache 设 
计 中 的 某 一 方面 就 能 直接 影响 这 些 缺 失 的 原因 。 由 于 冲突 缺失 直接 
产生 于 竞争 同一 个 cache 块 ， 因 此 提高 相 联 度 可 以 减少 冲突 缺失 。 
然而 ， 提 高 相 联 度 可 能 会 延长 访问 时 间 ， 导 致 整体 性 能 降低 。 
容量 缺失 可 以 简单 地 通过 增 大 cache 来 减少 。 的 确 ， 二 级 cache 
的 容量 多 年 来 稳步 增长 。 当 然 ， 在 增 大 cache 的 同时 ， 我 们 也 必须 


3C 模 型 : 一 种 cache 模 
型 ， 将 所 有 cache 续 失 归 
为 三 种 类 型 之 一 ， 即 强制 
缺失 、 容 量 缺 失 和 冲突 缺 
失 。 因 三 种 类 型 的 英文 单 
词 首 字母 均 为 C 而 得 名 。 


强制 缺失 : 也 称 为 冷 启动 
缺失 。 第 一 次 访问 一 个 从 
未 在 cache 中 出 现 过 的 块 
而 产生 的 缺失 。 


容量 缺失 : 由 于 cache 在 
全 相 联 时 都 不 可 能 容纳 
所 有 请 求 的 块 而 产生 的 
缺失 。 


冲突 缺失 : 也 称 为 磁 撞 缺 
失 。 在 组 相 联 或 直接 映射 
cache 中 ， 当 多 个 块 竞争 
同一 组 时 产生 的 缺失 - 这 
种 缺失 在 相同 大 小 的 全 相 
联 cache 中 不 会 产生 。 


注意 访问 时 间 的 增加 ， 这 将 导致 整体 性 能 的 降低 。 因 此 ， 第 一 级 cache 增长 得 非常 缓慢 。 

由 于 强制 缺失 是 第 一 次 访问 块 时 产生 的 ， 因 此 cache 系统 减少 强制 缺失 最 主要 的 方法 是 
增加 块 大 小 。 由 于 程序 将 由 较 少 的 cache 块 组 成 ， 因 此 增加 块 大 小 就 减少 了 对 程序 每 一 块 都 
要 访问 一 次 的 情况 下 所 需 的 访问 次 数 。 如 前 所 述 ， 块 容量 增加 太 多 可 能 对 性 能 产生 负面 影 


响 ， 因 为 缺失 代价 会 增长 。 


恒 赵 存储 器 层次 结构 设计 所 面临 的 挑战 在 于 : 任何 一 个 改进 缺失 率 的 设计 同时 也 可 能 
对 整体 性 能 产生 负面 影响 ， 如 图 5-37 所 示 。 正 面 与 负面 作用 的 结合 就 使 得 存储 器 层次 结构 


的 设计 令 人 关注 。 
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8 16 32 64 128 256 
cache 容 量 ( kiB ) 

图 5-36 缺失 率 根据 缺失 原因 分 为 三 种 。 该 图 显示 了 不 同 容量 cache 的 总 缺失 率 及 其 组 成 。 这 些 数据 
收集 于 SPEC CPU 2000 整数 和 浮 点 基准 测试 程序 ， 与 图 5-35 的 数据 出 自 同 一 来 源 。 强 制 缺 
失 部 分 只 占 0.006%， 在 本 图 中 不 可 见 。 下 一 部 分 是 容量 缺失 ， 取 决 于 cache 容量 。 冲 突 缺 失 
部 分 既 取决 于 相 联 度 ， 又 取决 于 cache 容量 ， 图 中 给 出 了 相 联 度 从 一 路 到 八路 的 冲突 缺失 率 。 
在 每 种 情况 下 ， 图 中 标记 的 地 方 对 应 于 相 联 度 从 下 一 (更 高 ) 相 联 度 变化 到 该 相 联 度 时 缺失 率 
的 增加 。 例 如 ， 标 有 两 路 的 部 分 说 明 当 cache 相 联 度 为 两 路 而 不 是 四 路 时 产生 的 额外 的 缺失 。 
因此 ， 同 样 大 小 的 直接 映射 cache 和 全 相 联 cache 的 缺失 率 的 差别 由 标记 为 八路 、 四 路 、 两 路 
和 一 路 的 各 部 分 之 和 给 出 。 八 路 和 四 路 之 间 差 距 太 小 ， 以 至 于 在 图 中 很 难 区 分 













增加 cache 容 量 可 能 增加 访问 时 间 


增加 相 联 度 由 于 冲突 缺失 减少 ,缺失 率 降低 可 能 增加 访问 时 间 


由 于 空间 局 部 性 ， 对 很 宽 范 围 内 的 块 增加 缺失 代价 ， 太 大 的 块 可 能 会 


革 加 可 罕 大 小 ， 都 能 降低 缺失 率 增加 缺失 率 
图 5-37 存储 器 层次 结构 设计 面临 的 挑战 








将 缺失 分 成 3C 是 个 有 用 的 定性 模型 。 在 实际 cache 设计 中 ,许多 设计 选择 是 相互 影响 
的 ， 改 变 cache 的 一 个 特征 通常 会 影响 另 一 些 缺失 率 的 组 成 部 分 。 尽 管 存在 这 些 缺点 ，3C 模 
型 对 于 观察 cache 设计 的 性 能 来 说 仍 是 一 种 有 效 的 方法 。 








5.9 使 用 有 限 状态 机 控制 简单 的 cache 
就 像 第 4 章 中 实现 单 周期 和 流水 线 数据 通路 的 控制 一 样 ， 现 在 我 们 可 以 构造 cache 的 控 
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制 。 本 节 从 定义 一 个 简单 的 cache 开始 ， 然 后 描述 有 限 状态 机 (Finite-State Machine，FSM)。 
最 后 介绍 了 该 简单 cache 的 控制 器 的 FSM。5.12 节 进 行 更 深入 的 介绍 ， 用 一 种 新 的 硬件 描述 
语言 来 实现 cache 和 控制 器 。 


5.9.1 一 个 简单 的 cache 


我 们 将 为 一 个 简单 的 cache 设计 控制 器 。 该 cache 的 关键 特征 如 下 : 
e 直接 映射 cache。 

写 回 机 制 ， 采 用 写 分 配 策略 。 

块 大 小 为 4 个 字 ( 16 字 节 或 者 128 位 )。 

cache 大 小 为 16KiB ， 可 以 容纳 1024 个 块 。 

32 位 地 址 。 

cache 中 每 个 块 包含 一 个 有 效 位 和 一 个 写 人 位 。 

根据 5.3 节 ， 我 们 可 以 计算 出 cache 的 地 址 字段 : 

e cache 索引 为 10 位 。 

。 块 偏 移 为 4 位 。 

e 标记 为 32- (10+4)， 即 18 位 。 

处 理 器 和 cache 之 间 的 信号 为 : 

e 1 位 读 / 写 信号 。 

。 1 位 有 效 信号 ， 表 明 是 否 有 一 个 cache 操作 。 
e 32 位 地 址 。 
. 
看 


32 位 数据 (从 处 理 器 到 cache)。 
32 位 数据 (从 cache 到 处 理 器 ) 。 
e 1 位 准备 (Ready) 信号 ， 指 示 cache 操作 完成 。 
除了 数据 字段 现在 是 128 位 宽 外 ， 存 储 器 与 cache 之 间 的 接口 有 着 和 处 理 器 与 cache 之 
间 相 同 的 字段 。 目 前 的 微 处 理 器 中 一 般 都 有 额外 的 存储 器 位 宽 ， 可 以 处 理 处理 器 中 的 32 位 
或 64 位 字 ， 而 DRAM 控制 器 通常 是 128 位 。 使 cache 块 与 DRAM 位 宽 匹 配 ， 可 以 简化 设 
计 。 下 面 是 一 些 信号 : 
。 1 位 读 / 写 信号 。 
e 1 位 有 效 信号 ， 指 示 是 否 有 一 个 存储 器 操作 。 
e 32 位 地 址 。 
e 128 位 数据 (从 cache 到 存储 器 )。 
e 128 位 数据 (从 存储 器 到 cache)。 
e 1 位 准备 信号 ， 指 示 存 储 器 操作 完成 。 
注意 ， 到 存储 器 的 接口 并 没有 固定 的 周期 数 。 假 设 当 存储 器 读 或 写 完成 后 ， 存 储 器 控制 
器 会 通过 准备 信号 来 通知 cache。 
在 描述 cache 控制 器 之 前 ,我 们 需要 回顾 一 下 有 限 状 态 机 ， 通 过 有 限 状态 机 可 以 控制 一 
个 需要 多 个 时 钟 周期 完成 的 操作 。 


5.9.2 ”有 限 状 态 机 
为 了 给 单 周期 的 数据 通路 设计 控制 单元 ， 我 们 需要 使 用 真 值 表 ， 根据 指令 的 分 类 来 指定 
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控制 信号 的 设置 。 对 于 cache， 由 于 操作 可 能 是 一 系列 步骤 ， 因 此 控制 更 为 复杂 。 对 cache 
的 控制 必须 指定 在 任 一 步骤 中 的 信号 设置 ， 并 且 指出 序列 中 的 下 一 个 步骤 。 

最 常见 的 多 步 控制 方法 是 基于 有 限 状 态 机 ( finite-state machine) 
实现 的 ， 通 常 以 图 形 化 方式 表示 。 一 个 有 限 状态 机 由 一 组 状态 以 及 | 有 呈 枯 杰 机 一 对 由 生 汪 
状态 改变 的 方向 组 成 。 方 向 由 下 一 状态 函数 ( next-state function) 来 ”| 输出 ,一 个 下 一 状态 函 教 
定义 ,将 当前 状态 和 输入 映射 到 一 个 新 的 状态 。 当 我 们 使 用 有 限 状 “| (将 当前 状态 和 输入 映 贡 为 
态 机 进行 控制 时 ， 每 个 状态 还 要 定义 机 器 在 该 状态 下 的 一 组 输出 值 。 | 有 和 二 人 开 人 全 
有 限 状态 机 的 实现 通常 假定 那些 没有 明确 置 为 有 效 的 输出 是 无 效 的 。 | 身 为 一 给 由) 
类 似 地 ， 数 据 通路 的 正确 操作 需要 将 没有 明确 设置 为 有 效 的 信号 设 
置 成 无 效 状 态 ， 而 不 是 将 信号 值 设 为 无 关 项 。 下 一 状态 函数 一 种 组 合 

多 路 选择 控制 略微 有 些 不 同 ， 因 为 多 路 选择 器 从 输入 中 选择 一 | 画 归 ， 根 据 栓 入 和 当前 状 
个 输出 ， 不 管 输入 值 是 0 还 是 1。 因此， 在 有 限 状 态 机 中 要 定义 所 | 吉庆 和 二 有 耻 伏 有 可 的 下 
有 我 们 关注 的 多 路 选择 控制 信号 。 当 我 们 使 用 逻辑 实现 有 限 状态 机 
时 ， 可 以 将 一 个 控制 信号 设置 为 0 作为 默认 值 ， 那 么 就 不 需要 任何 门 电路 。 附 录 A 中 给 出 了 
一 个 简单 的 有 限 状 态 机 的 例子 ， 如 果 你 对 有 限 状 态 机 的 概念 并 不 熟悉 ， 那 么 在 继续 下 面 的 内 
容 之 前 你 可 能 需要 先 花 一 些 时 间 来 研究 附录 A。 

有 限 状态 机 可 以 通过 一 个 临时 寄存 器 和 一 个 组 合 逻辑 实现 ， 临 时 寄存 器 保持 当前 状态 ， 
组 合 逻 辑 确定 数据 通路 的 有 效 信号 以 及 下 一 状态 。 图 5-38 给 出 了 这 种 实现 的 示意 图 。 附 录 C 
详细 描述 了 如 何 使 用 该 结构 实现 有 限 状态 机 。 附 录 A 的 A.3 节 中 ， 有 限 状态 机 的 组 合 逻 辑 由 
ROM ( Read-Only Memory， 只 读 存 储 器 ) 或 PLA ( Programmable Logic Array， 可 编程 逻辑 
阵列 ) 来 实现 。( 附 录 A 中 描述 了 这 些 远 辑 单元 。) 





数据 通路 控制 输出 。 图 5-38 ”有 限 状 态 机 控制 器 通常 由 一 个 
组 合 逻辑 和 一 个 保存 当前 状态 
的 寄存 器 来 实现 。 组 合 罗 辑 的 
输出 是 下 一 个 状态 号 以 及 当前 
状态 的 有 效 控制 信号 。 组 合 罗 
辑 的 输入 是 当前 的 状态 以 及 用 
来 决定 下 一 状态 的 一 些 输入 。 
注意 ， 在 本 章 所 使 用 的 有 限 状 
态 机 中 ， 输 出 仅 由 当前 状态 来 
决定 ， 而 与 输入 无 关 。 图 中 我 
们 通过 灰色 来 区 分 控制 线路 逻 
辑 和 数据 线路 逻辑 。 精 解 部 分 
对 此 进行 了 更 详细 的 解释 


组 合 控制 逻辑 


TTT 


输出 








TFET 


来 自 cache 
数据 通路 的 输入 





























请 钥 ; 注意 ， 这 种 简单 的 设计 称 为 阻塞 式 (blocking) cache， 处 理 器 必须 等 到 cache 处 
理 完 请 求 之 后 才能 继续 执行 。5.12 节 中 将 会 讲述 另 一 种 选择 ， 称 为 非 阻塞 式 cache。 


日 ” 即 真 值 表 中 的 X。 一 一 译 者 注 
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哺 普 本 书 中 的 有 限 状 态 机 类 型 称 为 Moore 型 有 限 状 态 机 ， 以 Edward Moore 的 名 字 命 
名 。 其 特征 是 输出 仅 取决 于 当前 状态 。 对 于 Moore 机 ， 组 合 控制 逻辑 可 以 分 为 两 部 分 : 一 部 
分 包括 控制 输出 且 仅 有 状态 输入 ; 另 一 部 分 仅 包含 下 一 状态 输出 。 

另 一 种 状态 机 是 Mealy 型 有 限 状 态 机 ， 以 George Mealy 的 名 字 命 名 。Mealy 机 的 输出 
取决 于 输入 和 当前 状态 。Moore 机 在 速度 和 控制 单元 的 规模 上 具有 潜在 的 实现 优势 。 因 为 其 
控制 信号 可 以 在 时 钟 周期 早期 产生 ， 不 依赖 于 给 入 ， 仅 依赖 于 当前 状态 ， 因 此 速度 可 以 提 
升 。 在 附录 A 中 ， 用 逻辑 门 实现 这 种 有 限 状 态 机 时 ， 可 以 很 明显 地 看 到 其 在 规模 上 的 优势 。 
Moore 机 潜在 的 缺点 是 可 能 需要 额外 的 状态 。 例 如 ， 在 两 个 状态 序列 中 仅 有 一 个 状态 不 同 的 
情况 下 ，Mealy 机 通过 使 用 输出 依赖 输入 的 方法 将 状态 统一 。 


5.9.3 ”一 个 简单 cache 控制 器 的 有 限 状态 机 
图 5-39 给 出 了 一 个 简单 cache 控制 器 的 四 个 状态 : 










标记 比较 
如 果 有 效 且 命中 ， 
如 果 是 写 操作 ， 
则 设置 有 效 位 、 
设置 标记 













有 效 的 CPU 请 求 





cache 缺 失 且 原先 
的 块 未 被 改写 





图 5-39 ”简单 控制 器 的 四 个 状态 


。 空闲 : 该 状态 等 待 从 处 理 器 发 出 有 效 读 / 写 请 求 ， 使 FSM 转 到 标记 比较 状态 。 

日 标记 比较 : 如 名 称 所 示 ， 该 状态 检测 读 / 写 请 求 是 命中 还 是 缺失 。 地 址 的 索引 部 分 选 
择 标 记 用 于 比较 。 若 地 址 索引 部 分 指向 的 cache 有 效 ， 并 且 地 址 的 标记 部 分 和 标记 匹 
配 ， 则 命中 。 如 果 是 load， 则 将 数据 从 选中 的 字 中 读 出 ， 若 为 store， 则 将 数据 写 人 
选中 的 字 中 。 然 后 cache 准备 信号 被 置 位 。 如 果 是 写 操作 ， 还 要 将 脏 位 设置 为 1。 注 
意 ， 如 果 是 写 命中 . 还 要 设置 有 效 位 和 标记 字段 ; 虽然 这 些 设置 看 起 来 并 不 需要 , 但 
必须 设置 ， 因 为 标记 使 用 单独 的 存储 器 ， 从 而 改变 脏 位 时 ， 也 需要 改变 有 效 位 和 标记 
字段 。 如 果 命 中 并 且 cache 块 有 效 ， 有 限 状 态 机 返回 到 空闲 状态 。 发 生 一 次 缺失 时 首 
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先 要 更 新 cache 标记 ， 然 后 如 果 这 个 位 置 的 块 的 脏 位 为 1， 则 转 到 写 回 状态 ; 车 脏 位 
为 0， 则 进入 分 配 状 态 。 

e 写 回 : 该 状态 根据 标记 和 cache 索引 组 合 的 地 址 ， 将 128 位 的 块 写 回 存储 器 。 保 
持 该 状态 并 等 待 存储 器 返回 准备 信号 。 当 写 存 储 器 完成 时 ， 有 限 状 态 机 进入 分 配 

。 分 配 : 从 存储 器 中 取出 新 块 。 保 持 该 状态 并 等 待 从 存储 器 返回 准备 信号 。 当 读 存 储 器 
操作 完成 时 ， 有 限 状 态 机 转 入 标记 比较 状态 。 尽 管 我 们 可 以 转移 到 一 个 新 的 状态 来 完 
成 操作 ， 而 不 再 使 用 标记 比较 状态 、 但 中 间 有 很 多 重奏 ,包括 当 访 问 是 写 操作 时 更 新 
块 中 恰当 的 字 。 

这 个 简单 的 模型 可 以 扩展 更 多 的 状态 以 改进 性 能 。 例 如， 标记 比较 状态 在 一 个 单独 的 时 
钟 周期 里 既 进 行 比较 ， 又 读 / 写 cache 数据 。 通 常 ， 比 较 和 cache 访问 可 以 放 在 独立 的 状态 
中 ， 以 改进 时 钟 周期 。 另 一 个 优化 是 增加 一 个 写 缓冲 区 ， 这 样 就 可 以 先 保存 脏 块 ， 然 后 再 读 
出 新 块 。 从 而 当 脏 块 缺失 时 ， 处 理 器 就 不 用 等 待 两 次 存储 器 访问 。 随 后 ，cache 从 写 缓冲 区 
中 将 脏 块 写 回 ， 处 理 器 同时 处 理 被 请 求 的 数据 。 

5.12 节 将 对 有 限 状 态 机 进行 更 深入 的 讨论 ， 给 出 整个 控制 器 的 硬件 描述 语言 描述 ， 以 及 
这 个 简单 cache 的 状态 转换 图 。 


5.10 ”并 行 与 存储 器 层次 结构 : cache 一 致 性 


多 核 多 处 理 器 意味 着 在 单 芯片 上 有 多 个 处 理 器 ， 这 些 处 理 器 很 可 能 会 共享 一 个 公共 的 物 
理 地 址 空间 。cache 共享 数据 带 来 了 一 个 新 的 问题 ， 由 于 两 个 不 同 的 处 理 器 所 保存 的 存储 器 
视图 是 通过 各 自 的 cache 得 到 的 ， 如 果 没 有 其 他 的 防范 措施 ， 两 个 处 理 器 可 能 分 别 得 到 两 个 
不 同 的 值 。 图 5-40 说 明了 该 问题 ， 并 展示 了 两 个 不 同 的 处 理 器 如 何 会 在 相同 的 存储 器 位 置 
上 得 到 不 同 的 值 。 这 个 问题 通常 称 为 cache 一 致 性 问题 (cache coherence problem)。 
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区 二 关于 
1 | cpuA 读 x 0 
2 | cpue 读 x 0 
3 | ”cpuA 向 x 写 和 1 




















图 5-40 cache 一 致 性 问题 ， 两 个 处 理 器 (A 和 B) 对 同一 个 存储 器 位 置 X 进行 读 写 操作 。 假 设 最 初 两 
个 cache 中 都 不 包含 该 变量 并 且 X 的 值 为 0。 假设 该 cache 采用 写 直 达 ， 若 是 写 回 cache 则 会 
增加 一 些 额 外 但 相似 的 复杂 性 。 当 X 的 值 被 A 改写 后 ，A 的 cache 和 存储 器 中 都 是 新 值 ， 但 
是 B 的 cache 没有 ， 如 果 B 读 X， 得 到 的 值 为 0 


如 果 在 一 个 存储 器 系统 中 读 取 任何 一 个 数据 项 的 返回 结果 总 是 最 近 写 人 的 值 ， 那 么 可 
以 非 正式 地 认为 该 存储 器 具有 一 致 性 。 这 个 定义 尽管 看 起 来 是 正确 的 ， 但 仍 是 很 模糊 上 且 简 单 
的 ， 实 际 情 况 要 复杂 得 多 。 这 个 简单 的 定义 包括 了 存储 器 系统 行为 的 两 个 不 同方 面 ， 这 两 个 
方面 对 于 编写 正确 的 共享 存储 的 程序 至 关 重 要 。 第 一 个 方面 称 为 一 致 性 (coherence)， 定 义 
了 读 操作 可 以 返回 什么 数值 。 第 二 个 方面 称 为 连贯 性 ( consistency)， 定 义 了 写 人 的 数据 什么 
时 候 才 能 被 读 操作 返回 。 
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首先 来 看 一 致 性 。 存 储 系 统 若 满足 如 下 条 件 ， 那 么 认为 该 系统 是 一 致 的 : 
e 处 理 器 P 对 位 置 X 先 进行 写 ， 然 后 进行 读 ， 中 间 没 有 其 他 处 理 器 对 X 进行 写 ， 读 操作 总 
是 返回 P 写 人 的 数值 。 因 此 , 在 图 5-40 中 , 若 CPU A 在 时 间 3 之 后 读 X， 则 得 到 数值 1。 
se 在 其 他 处 理 器 对 X 写 之 后 ， 处 理 器 了 对 X 进行 读 ， 若 这 两 个 操作 之 间 有 足够 的 间隔 
并 且 没有 其 他 处 理 器 对 X 进行 写 操作 ,那么 读 操作 返回 的 是 写 人 的 数值 。 因 此 , 在 
图 5-40 中 ， 我 们 需要 一 个 机 制 ， 使 得 CPU B 的 cache 中 的 0 值 被 时 间 步 3 中 CPU A 
写 入 X 的 值 ! 所 替换 。 
e 对 同一 个 地 址 的 写 是 囊 行 的 ( serialized)， 也 就 是 说 ， 任 何 两 个 处 理 器 对 同一 个 地 址 
的 两 个 写 操作 在 所 有 处 理 器 看 来 都 有 相同 的 顺序 。 例 如 ， 如 果 时 间 步 3 之 后 ，CPU B 
向 地 址 X 中 写 信 2， 那 么 处 理 器 绝 不 会 从 地 址 X 中 先 读 出 2 再 读 出 1。 
第 一 个 性 质 简 单 地 保证 了 程序 的 顺序 一 一 我 们 希望 在 单 处 理 器 中 也 要 保证 这 个 性 质 。 第 
二 个 性 质 定义 了 存储 器 的 一 致 性 意味 着 什么 一 一 如 果 一 个 处 理 器 能 够 持续 读 到 旧 的 数值 ， 那 
么 就 认为 该 存储 器 是 非 一 致 性 的 。 
写 串 行 化 (write serialization) 更 为 微妙 ， 但 同等 重要 。 假 定 没有 将 写 操作 串 行 化 ， 并 且 
处 理 器 P1 写 人 地 址 X 之 后 ， 紧 跟着 处 理 器 P2 也 会 写 信 地址 X。 写 串 行 化 确保 每 个 处 理 器 都 
能 在 某 个 点 上 看 到 P2 写 人 的 结果 。 如 果 没 有 将 写 操作 串 行 化 ,那么 情况 可 能 就 会 变 成 一 些 
处 理 器 先 看 到 P2 写 人 的 结果 ， 然 后 再 看 到 P1 写 人 的 结果 ， 从 而 始终 保留 了 P1 写 入 的 数值 。 
避免 这 种 情况 最 简单 的 方法 就 是 保证 对 同一 个 地 址 的 所 有 写 操作 在 所 有 处 理 器 看 来 都 具有 相 
同 的 顺序 ， 这 种 性 质 称 为 写 囊 行 化 。 


5.10.1 实现 一 致 性 的 基本 方案 
在 一 个 支持 cache 一 致 性 的 多 处 理 器 中 ，cache 提供 共享 数据 的 迁移 ( migration) 和 复制 


(replication ) 。 
e 迁移: 一 个 数据 项 可 以 移 人 本 地 cache 并 以 一 种 透明 的 方式 使 用 。 迁 移 不 但 减少 了 访 
问 远程 共享 数据 项 的 延迟 ， 而 且 减 少 了 对 共享 存储 器 带宽 的 需求 。 
e@ 复制 : 当 共享 数据 被 同时 读 取 时 ，cache 在 本 地 产生 该 数据 项 的 备份 。 复 制 减少 了 访 
问 延 迟 和 读 取 共享 数据 时 的 竞争 现象 。 
迁移 和 复制 对 于 访问 共享 数据 的 性 能 来 说 是 至 关 重 要 的 ， 因 此 很 多 多 处 理 器 引入 了 硬件 
协议 来 维护 cache 一 致 性 。 这 些 维护 多 个 处 理 器 一 致 性 的 协议 称 为 cache 一 致 性 协议 。 实 现 
cache 一 致 性 协议 的 关键 在 于 跟踪 数据 块 的 共享 状态 。 
最 常用 的 cache 一 致 性 协议 是 监听 (snooping) 协议 。 每 个 含有 物理 存储 器 中 数据 块 副本 
的 cache 同样 还 要 保留 该 数据 块 共享 状态 的 副本 ， 但 不 需要 保存 集中 的 状态 。cache 可 以 通 
过 一 些 广播 媒介 (总 线 或 网 络 ) 访问 ， 所 有 的 cache 控制 器 对 媒介 进行 监视 或 者 监听 ， 来 确 
定 它们 是 否 含有 总 线 或 者 交换 机 上 请 求 的 数据 块 副本 。 
在 后 面 章节 我 们 将 介绍 用 共享 总 线 实现 的 基于 监听 的 cache 一 致 性 机 制 ， 任何 可 以 向 
所 有 处 理 器 广播 cache 缺失 的 通信 媒介 都 可 以 用 来 实现 基于 监听 的 一 致 性 机 制 。 这 种 向 所 有 
cache 广播 的 方法 使 得 监听 协议 易于 实现 ， 但 是 也 限制 了 其 可 扩展 性 。 


5.10.2 监听 协议 
一 种 实现 一 致 性 方法 是 ， 确 保 一 个 处 理 器 在 写 数据 项 之 前 能 独占 访问 该 数据 项 。 这 类 
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协议 称 为 写 无 效 协议 ， 因 为 进行 写 操作 时 会 作废 其 他 cache 中 的 副本 。 独 占 访问 确保 了 写 
操作 执行 时 不 存在 其 他 可 读 或 可 写 的 数据 项 副本 : 其 他 cache 中 该 数据 项 的 所 有 副本 都 作 
废 了 。 

图 5-41 给 出 了 一 个 基于 监听 总 线 的 写 无 效 协 议 的 例子 ， 其 中 cache 使 用 写 回 机 制 。 为 了 
说 明 该 协议 如 何 保证 一 致 性 ， 考 虑 写 操作 后 面 紧 跟 另 一 处 理 器 读 的 情况 : 由 于 写 操作 需要 独 
占 访 问 ， 执 行 读 操作 的 处 理 器 中 保存 的 任何 副本 都 要 作废 (协议 因此 得 名 )。 因 此 ， 进 行 读 时 
cache 中 发 生 缺 失 ，cache 取 回 数据 的 新 副本 。 对 于 一 次 写 操作 ， 我 们 要 求 执行 写 操作 的 处 理 
器 独占 访问 ， 以 防止 其 他 处 理 器 同时 进行 写 。 如 果 两 个 处 理 器 试图 同时 写 同 一 个 数据 ， 那 么 
只 有 其 中 一 个 会 在 竞争 中 获胜 ， 使 得 另 一 个 处 理 器 的 副本 作废 。 其 他 竞争 失败 的 处 理 器 要 完 
成 写 操作 ， 就 必须 取得 该 数据 的 新 副本 ， 副 本 中 必须 包含 更 新 后 的 数据 。 因 此 ， 该 协议 也 强 
制 实现 了 写 操作 的 串 行 化 。 
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CPU A 读 X X 在 cache 中 缺失 0 | 

CPU B 读 X X 在 cache 中 缺失 0 | 
.Eh 

CPU A 向 X 写 入 1 令 X 无 效 1 | 

CPU B 读 X X 在 cache 中 缺失 1 | 








图 5-41 写 无 效 协 议 在 监听 总 线 上 芽 作 的 例子 ， 对 单个 cache 块 X 操作 ，cache 采用 写 回 机 制 。 假 设 最 
初 两 个 cache 中 都 没有 X， 而 存储 器 中 X 的 值 为 0。CPU 和 存储 器 的 内 容 显示 的 是 处 理 器 和 
总 线 动作 都 完成 后 的 数值 。 空 格 表示 没有 动作 或 者 没有 存放 副本 。 当 B 产生 第 二 次 缺失 时 ， 
CPU A 回应 ， 同 时 取消 来 自 存储 器 的 响应 。 此 外 ，B 的 cache 中 的 内 容 和 存储 器 中 X 的 内 容 
都 被 更 新 。 这 种 当 块 变 为 共享 时 对 存储 器 进行 更 新 的 方法 简化 了 协议 ， 但 是 可 能 要 跟踪 记录 
所 有 权 ， 并 且 只 有 当 块 被 替换 时 才 强制 写 回 。 这 需要 引 人 一 个 被 称 为 “所 有 者 ”的 额外 状态 ， 
以 表明 块 可 以 被 共享 但 是 当 志 被 改变 或 是 替换 时 ， 由 所 有 者 处 理 器 负责 更 新 其 他 处 理 器 和 
存储 器 
团 碾 [ 喜 积 搂 色 一 种 观点 认为 块 大 小 在 cache 一 致 性 中 扮演 着 | 假 共 京 ， 当 两 个 不 相关 的 
非常 重要 的 角色 。 例 如 ， 对 于 一 个 cache 进行 监听 ，cache 块 大 小 为 “| 共享 变量 存在 于 相同 的 
8 个 字 ， 单 个 字 可 以 被 两 个 处 理 器 读 或 写 。 大 多 数 协议 在 两 个 处 理 | cache 奖 中 时 ， 尺 管 处 理 
器 之 间 交 换 整 个 块 ， 因 此 增加 了 所 需要 的 一 致 性 带宽 。 导 和 有 出 大 丰 划 的 要 肖 ， 
但 处 理 器 之 间 还 是 将 整个 
大 的 块 也 会 引起 所 谓 的 假 共享 (false sharing); 当 两 个 不 相关 的 。 | 头 进 行 交 久 ， 
共享 变量 存在 于 相同 的 cache 块 中 时 ， 尽 管 处 理 器 访问 的 是 不 同 的 
变量 ， 但 处 理 器 之 间 还 是 将 整个 块 进行 交换 。 因 此 ， 程 序 员 和 编译 器 需要 谨慎 地 放置 数据 以 
避免 发 生 假 共享 。 
交纳 尽管 前 面 三 个 属性 已 足够 确保 一 至 性 ， 但 是 何 时 能 看 见 写 入 的 值 ， 这 个 问题 同 
样 很 重要 。 让 我 们 来 看 看 为 什么 。 注 意 到 在 图 5-40 中 ， 我 们 不 能 要 求 对 X 的 读 操作 立刻 
能 看 见 其 他 处 理 器 对 义 写 入 的 值 。 如 果 一 个 处 理 器 对 X 的 写 稍稍 先 于 另 一 处 理 器 对 X 的 
读 ， 那 么 可 能 就 不 能 保证 读 返 回 的 是 被 写 入 的 值 ， 因 为 在 那 一 刻 ， 被 写 的 数据 可 能 甚至 还 没 
有 离开 处 理 器 。 写 入 的 数据 必须 何 时 被 读 操作 看 到 ， 这 个 问题 由 存储 一 致 性 模型 (memory 


consistency model) 定义 。 
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我 们 做 两 个 假设 : 第 一 ,一 个 写 操作 直到 所 有 处 理 器 都 看 到 写 的 效果 才 算 完成 (并 允许 
下 一 个 写 操作 发 生 ); 第 二 ， 关 于 其 他 任何 存储 器 访问 ， 处 理 器 不 能 改变 任何 写 入 的 顺序 。 这 
两 个 条 件 意味 着 : 如 果 处 理 器 在 写 位 置 义 之 后 再 写 位 置 Y， 那 么 任何 看 到 Y 的 新 值 的 处 理 
器 也 必须 看 见 X 的 新 值 。 这 些 限制 条 件 允 许 处 理 器 对 读 操 作 重 新 排序 ， 但 强制 处 理 器 以 程序 
执行 的 顺序 完成 写 操作 。 

| 哺 铺 由 于 输入 操作 可 以 改变 cache 背后 的 内 存 ， 并 且 在 写 回 cache 中 ， 输 出 操作 需 
要 最 新 的 值 ， 因 此 在 单 处 理 器 中 也 存在 IO 和 cache 之 间 一 致 性 的 问题 ， 与 多 处 理 器 cache 
间 的 一 致 性 问题 相同 。 多 处 理 器 和 IO ( 见 第 6 章 ) 的 cache 一 致 性 问题 尽管 起 因 类 似 ， 但 
特性 不 同 ， 从 而 影响 了 解决 方法 。 与 几乎 很 少 有 多 个 数据 副本 的 IO 不 同一 一 只 要 可 能 有 
就 应 该 避免 一 一 个 运行 在 多 个 处 理 器 上 的 程序 通常 在 多 个 cache 中 都 有 相同 数据 的 多 个 
副本 。 

畏 钥 ;除了 监听 式 cache 一 致 性 协议 (共享 决 的 状态 是 分 布 保存 )， 基 于 目录 的 cache 一 
致 性 协议 只 在 一 个 地 方 保存 物理 存储 器 块 的 共享 状态 ， 称 为 目录 ( direetory)。 尽 管 基于 目录 
的 一 致 性 比 监 听 式 的 实现 开销 略 高 一 些 ， 但 是 这 种 方法 可 以 减少 cache 之 间 的 通信 ， 并 且 因 
此 可 以 扩展 更 多 的 处 理 器 。 


5.11 并 行 与 存储 器 层次 结构 : 廉价 元 余 磁盘 阵列 

本 节 内 容 在 网 站 上 ， 阑 述 了 如 何 采用 多 个 磁盘 协同 工作 以 提供 更 高 的 吞吐 率 ， 该 技术 
是 廉价 宛 余 磁盘 阵列 ( Redundant Arrays of Inexpensive Disks，RAID) 产生 最 初 的 灵感 所 在 。 
然而 ，RAID 技术 真正 流行 的 原因 更 多 在 于 采用 适当 数量 的 元 余 磁盘 带 来 的 可 靠 性 的 提高 。 
本 节 解 释 了 不 同 RAID 级 别 在 性 能 、 成 本 和 国难 竹 等 方面 的 差别 。 


5.12 ”高 级 主题 ， 实现 cache 控制 器 


本 节 内 容 在 网 站 上 ， 介 绍 了 如 何 实现 cache 的 控制 ， 如 同 第 4 章 中 实现 单 周期 以 及 流水 
处 理 器 的 数据 通路 的 控制 一 样 。 本 节 开 始 描述 了 有 限 状态 机 以 及 一 个 简单 数据 cache 中 控制 
器 的 实现 ， 包 括 用 硬件 描述 语言 来 描述 cache 控制 器 。 随 后 详细 介绍 了 一 个 cache 一 致 性 协 
议 的 例子 以 及 该 协议 实现 的 难点 。 


5.13 实例 : ARM Cortex-A53 和 Intel Core i7 的 存储 器 层次 结构 


本 节 中 我 们 将 考察 第 4 章 中 提 到 的 两 种 微 处 理 器 ( ARM Cortex-A53 和 Intel Core i7 ) 
的 存储 器 层次 结构 。 本 节 内 容 部 分 基于 《计算 机 体系 结构 : 量化 研究 方法 》( 第 5 版 ) 的 
2.6 节 。 

图 5-42 总 结 了 这 两 种 处 理 器 的 地 址 大 小 和 TLB。 注 意 ，Cortex-A53 包含 了 两 个 各 有 10 
项 的 全 相 联 微 TLB (micro-TLB)， 配 合 着 一 个 共享 的 512 项 的 四 路 组 相连 主 TLB， 具 有 48 
位 虚拟 地 址 空间 和 40 位 物理 地 址 空间 。Core i7 有 三 个 TLB, 一 个 48 位 的 虚拟 地 址 空间 ， 
一 个 44 位 的 物理 地 址 空间 。 虽 然 这 些 处 理 器 中 的 64 位 寄存 器 可 以 装 下 更 大 的 虚拟 地 址 ,但 
是 没有 软件 需要 如 此 大 的 空间 ，48 位 虚拟 地 址 不 但 缩小 了 页 表 占 据 的 内 存 ， 也 减 小 了 TLB 
的 硬件 。 

图 5-43 给 出 了 这 两 款 处 理 器 的 cache。Cortex-A53 可 以 有 1 一 4 个 处 理 器 或 者 核 ， 
而 Core 这 则 固定 为 4 核 。Cortex-A53 每 个 核 具 有 容量 为 16 ~ 64KiB 的 两 路 LI1 级 指令 











481 














482 





340 锚 5 草 





cache，Core i7 每 个 核 具 有 容量 为 32KiB 的 四 路 组 相 联 L1 级 指令 cache。 两 款 处 理 器 的 
cache 块 大 小 都 为 64 字 节 。Cortex-A53 将 数据 cache 的 相 联 度 提升 到 四 路 ， 其 他 参数 保持 
不 变 。 类 似 的 ，Core 这 除了 将 相 联 度 提升 到 八路 外 其 他 也 保持 不 变 。Core i7 为 每 个 核 提 
供 了 一 个 256KiB 的 八路 组 相 联 L2 cache， 块 大 小 为 64 字 节 。 相 比 之 下 ，Cortex-A53 提 
供 了 一 个 L2 cache 供 1 一 4 个 核 之 间 共 享 。 该 cache 采 用 十 六 路 组 相 联 ， 块 大 小 为 64 字 
节 ， 容 量 在 128KiB 一 2MiB 之 间 。 由 于 Core i7 主要 用 于 服务 器 ， 因 此 它 还 提供 了 一 个 被 
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所 有 片上 核 共享 的 L3cache， 其 容量 大 小 由 核 的 数量 决定 。 四 核 情况 下 ，L3 cache 的 大 小 
为 8MiB。 





























虚拟 地 址 。 | ”48 位 | 48 位 
物理 地 址 40 位 Sr 44 位 
页 大 小 可 变 : 4、16、64KiB; 1、2MiB; 1GiB | 可 变 : 4KiB; 2/4MiB 
TLB 组 织 每 核 1 个 指令 TLB、1 个 数据 TLB 每 核 1 个 指令 TLB、1 个 数据 TLB 
| 。 两 个 微 TLB 均 为 全 相 联 ，10 项 ， 轮 转 蔡 换 | 两 个 L1 TLB 均 为 四 路 组 相 联 ， 采 用 LRU 
策略 替换 策略 
64 项 四 路 组 相 联 TLB L11TLB 对 于 小 页 面 有 128 个 入 口 ， 对 
硬件 处 理 TLB 缺 失 大 页 面 每 线程 有 7 个 入 口 | 
L1 DTLB 对 于 小 页 面 有 64 个 入 口 , 大 | 
| 页 面 有 32 个 入 口 
| L2TLB 为 四 路 组 相 联 ，LRU 赫 换 策略 
L2TLB 有 512 个 入 口 
硬件 处 理 TLB 缺 失 











图 5-42 ARM Cortex-A53 和 Intel Core i7 920 的 地 址 转换 和 TLB 硬件 。 两 个 处 理 器 均 支 持 用 于 操作 系 
统 或 映射 为 帧 缓冲 区 的 大 页 面 。 大 页 面 机 制 避 免 了 使 用 多 个 人 口 映射 始终 存在 的 单个 对 象 的 
情况 

Cortex-A53 和 Core i 这 样 的 处 理 器 ， 能 够 在 每 个 时 钟 周期 中 执行 一 条 以 上 的 访 存 指令 ， 

这 对 于 cache 设计 者 而 言 是 一 个 巨大 的 挑战 。 一 种 常用 的 技术 是 将 cache 分 成 多 个 bank ( 存 

储 块 )， 从 而 在 不 发 生 bank 冲突 时 ， 能 够 对 多 个 bank 岂 董 访问 。 该 技术 与 DRAM 中 的 bank 

间 交 叉 类 似 ( 见 5.2 节 )。 

Cortex-A53 和 Core i7 采用 了 另外 一 些 优化 技术 来 降低 缺失 开销 。 第 一 种 是 缺失 时 请 求 

字 优 先 策略 。 在 cache 缺失 时 ， 继 续 执行 访问 数据 cache 的 指令 。 设 计 师 为 了 隐藏 cache 缺 

失 开销 通常 采用 该 技术 ， 称 为 非 阻 塞 cache ( nonblocking cache) 。 a ae 

他 们 实现 了 两 种 非 阻塞 : 缺失 下 的 命中 (hit under miss) 允许 在 缺失 | 允许 处 理 器 在 处 理 前 面 的 

期 间 有 其 他 的 cache 命中 ; 缺失 下 的 缺失 ( miss under miss) 允许 有 ”| cache 缺 失 时 仍 可 以 访问 

多 个 未 解决 的 cache 缺失 。 这 两 者 中 第 一 个 致力 于 用 其 他 工作 来 隐 | cache。 

藏 一 部 分 缺失 延迟 ， 而 第 二 个 的 目标 在 于 重 全 两 个 不 同 缺 失 的 延迟 。 

对 多 个 未 完成 的 缺失 重奏 大 部 分 的 缺失 时 间 ， 需 要 一 个 高 带宽 的 存储 系统 来 并 行 地 处 理 

多 个 缺失 。 在 个 人 移动 设备 中 ,存储器 系统 可 以 对 请 求 进行 适当 的 流水 化 、 合 并 、 重 排序 以 

及 设置 优先 级 。 大 型 服务 器 和 多 处 理 器 的 存储 系统 通常 能 并 行 处 理 多 个 未 完成 的 缺失 。 

Cortex-A53 和 Core i7 对 数据 访问 采用 了 预 取 技 术 。 在 缺失 产生 前 ， 根 据 数据 缺失 的 类 
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型 来 预测 下 一 个 数据 访问 的 地 址 ， 并 使 用 该 地 址 开始 取 数据 。 这 些 技 术 在 访问 循环 中 的 数组 







































































时 非常 有 效 。 
特点 
L1 cache 组 织 指令 cache 和 数据 cache 分 离 指令 cache 和 数据 cache 分 离 
Llcache 容 量 了 每 核 数据 /指令 cache 均 为 32KiB 
L1 cache 相 联 度 两 路 (1) 、 四 路 ( D ) 组 相 联 四 路 (1) 、 八 路 ( D ) 组 相 联 
L1 替 换 策略 随机 近似 LRU 
L1 块 大 小 64 字 节 64 字 节 
口 写 策略 ert | se se 
L1 命 中 时 间 ( 读 后 写 )| ”2 个 时 钟 周期 4 个 时 钟 周期 ， 流 水 执行 
L2 cache 组 织 统一 ( 指令 和 数据 ) 每 个 核 统一 ( 指令 和 数据 ) 
L2 cache 容 量 128KiB-2MiB 256KiB ( 0.25MiB } 
L2 cache 相 联 度 六 路 组 相 联 八路 组 相 联 
L2 替 换 策略 近似 LRU 近似 LRU 
L2 块 大 小 64 字 节 64 字 节 
L2 写 策略 写 回 ， 按 写 分 配 写 回 ， 写 分 配 
L2 命 中 时 间 12 个 时 钟 周期 10 个 时 钟 周期 
L3 cache 组 织 一 统一 ( 指令 和 数据 ) 
L3 cache 容 量 w= 8MiB， 共 享 
L3 cache 相 联 度 el 十 六 路 组 相 联 
L3 替 换 策略 ce 近似 LRU 
L3 块 大 小 a 64 字 节 
L3 写 策略 Rs 写 回 ， 写 分 配 
L3 命 中 时 间 本 35 个 时 钟 周期 











图 5-43 ARM Cortex-A53 和 Intel Core i7 920 中 的 cache 


这 些 芯 片 存储 器 层次 结构 非常 复杂 ， 并 且 管 芯 (die) 上 很 大 一 部 分 用 作 cache 和 TLB。 


这 些 表 明 需 要 大 量 的 设计 工作 ， 以 缩小 处 理 器 周期 时 





Cortex-A53 和 Core i7 存储 器 层次 结构 的 性 能 


测量 Cortex-A53 存储 器 层次 结构 时 的 配置 包括 ， 一 个 32KiB 两 路 组 相 联 Ll 指令 
cache， 一 个 32KiB 四 路 组 相 联 L1 数 据 cache， 一 个 1MiB 十 六 路 组 相 联 L2 cache， 运 行 
SPEC 2006 整数 基准 测试 程序 。 

对 于 这 些 基准 测试 程序 ，Cortex-A53 指令 cache 的 缺失 率 非常 低 。 图 5-44 给 出 了 Cortex-A53 
的 数据 cache 的 测试 结果 ,其 Ll 和 12 的 缺失 率 都 比较 高 。 LI 数据 cache 的 缺失 率 为 05% 一 
373%， 均 值 为 64%， 中 值 为 24%。 全 局 L2 cache 缺 失 率 为 01% ~ 90%， 均 值 为 13%， 中 值 为 
0.3%。1GHz Cortex-A53 的 Ll 缺失 开销 为 12 个 时 钟 周期 ，L2 缺失 开销 为 124 个 时 钟 周期 。 根 据 
这 些 失 效 开销 ， 图 5-45 给 出 了 每 次 数据 访问 的 平均 缺失 开销 。 当 这 些 低 缺 失 率 与 高 缺失 开销 相 
乘 ， 你 可 以 发 现 对 于 12 个 SPEC2006 基准 测试 程序 中 的 5 个 ， 该 乘积 占据 了 CPI 中 的 绝 大 部 分 。 


间 和 内 存 延 迟 之 间 的 差距 。。 
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一 L1 数 据 cache 缺 失 率 
- 依 - L2 数 据 cache 缺 失 率 
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图 5-44 ARM Cortex-A53 上 运行 SPEC 2006 整数 基准 测试 程序 时 数据 cache 的 缺失 率 。 对 于 
占用 较 大 存储 空间 的 应 用 具有 更 高 的 L1 cache 和 L2 cache 缺失 率 。 注 意 ，L2 cache 缺 
失 率 是 全 局 缺失 率 ， 也 就 是 说 ， 涵 盖 了 所 有 的 访问 ,包括 Ll1 cache 中 命中 的 部 分 ( 见 
5.4 节 精 解 部 分 )。mcf 是 公认 的 对 cache 不 友好 的 程序 。 注 意 ， 本 图 与 第 4 章 图 4-74 
使 用 相同 的 系统 和 基准 测试 程序 












图 L2 数 据 cache 平 均 存储 访问 开销 
三 L2 数 据 cache 平 均 存储 访问 开销 
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每 次 数据 访问 的 缺失 开销 
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图 5-45 ARM 处 理 器 上 运行 SPEC 2006 整数 基准 测试 程序 时 ， 每 次 访问 数据 存储 器 时 Ll 和 L2 cache 


的 平均 访 存 开销 (时 钟 周期 数 )。 虽 然 L1 cache 的 缺失 率 非常 高 ， 但 L2 cache 的 缺失 开销 高 
了 5 倍 以 上 ， 这 意味 着 L2 cache 的 缺失 影响 更 大 








图 5-46 给 出 了 Core i7 运行 SPEC 2006 基准 测试 程序 时 的 cache 缺失 率 。L1 指令 cache 
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的 缺失 率 在 0.1% 一 1.8% 之 间 ， 平 均 刚 过 0.4%。 该 缺失 率 与 运行 SPEC 2006 基准 测试 程 
序 时 指令 cache 的 行为 一 致 ， 表 明 指令 cache 具有 较 低 的 缺失 率 。L1 数据 cache 的 缺失 率 
在 5% 一 10%， 有 时 高 一 些 ， 而 L2 和 L3 cache 的 重要 性 应 该 是 显而易见 的 。 由 于 缺失 时 访 
存 开 销 在 100 个 时 钟 周期 以 上 ， 并 且 L2 的 平均 数据 缺失 率 为 4%， 因 而 L3 cache 非常 关键 。 
假定 有 一 半 的 指令 是 load 或 store 指令 ， 如 果 没 有 L3 cache， 那 么 L2 cache 的 缺失 将 导致 
CPI 每 指令 增加 2 个 时 钟 周期 ! 相 比 之 下 ，L3 数据 cache 平均 1% 的 缺失 率 仍 是 很 高 的 ， 但 
比 工 2 的 缺失 率 低 4 倍 ， 比 LI1 的 缺失 率 低 6 倍 。 
25% 本 -------------- 一 -一 

佑 人 合 L1 数 据 cache 缺 失 率 

| 一 时 一 L2 数 据 cache 缺 失 率 

一 契 一 L3 数 据 cache 缺 失 率 
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图 5-46 ”Intel Core i7 920 运行 完整 SPEC 2006 整数 基准 测试 程序 时 ，L1、L2 和 L3 数据 cache 的 缺失 率 





钱 髓 由 于 推测 执行 有 时 可 能 出 现 错误 ( 见 第 4 章 )， 因 此 有 一 些 对 LL1 数据 cache 进行 
访问 的 load 或 store 指令 最 终 没 有 执行 ， 图 5-44 中 的 数据 是 对 所 有 数据 请 求 的 统计 ， 包 括 那 
些 被 取消 的 访问 。 仅 用 真正 完成 的 数据 访问 统计 的 缺失 率 要 高 1.6 倍 (对 于 Ll 数据 cache 平 
均 为 9.5% 比 5.9%)。 


5.14 实例 : ARMv8 系统 的 剩余 部 分 以 及 特殊 指令 


图 5-47 列 出 了 剩余 的 63 条 ARMv8 指令 ,包括 用 于 特殊 目的 的 指令 和 系统 指令 。 我 们 
在 图 中 从 上 到 下 、 从 左 到 右 地 描述 这 些 指令 。 

两 条 “ 非 缓 存 ” (non-cache) 或 “ 非 分 配 ”(no allocate) 指令 LDNP 和 STNP， 用 于 大 规模 
数据 流 ， 因 此 这 些 数据 以 后 不 太 可 能 会 被 用 到 ， 没 有 时 间 局 部 性 。 这 些 指 令 暗示 存储 器 层次 
结构 不 要 将 从 内 存 读 出 或 写 人 的 数据 放 入 cache 中 ， 而 是 直接 在 主 存储 器 和 处 理 器 寄存 器 之 
间 传 输 数 据 。 通 过 指定 一 对 寄存 器 ， 大 数据 传输 过 程 会 处 理 得 更 迅速 。 

栅栏 (barrier) 指令 为 指令 (ISB) 和 数据 ( DSB 和 DMB) 提供 同步 栅栏 。 后 两 个 栅栏 指 
令 都 会 影响 数据 访 存 顺序 ， 并 且 仅 在 严格 程度 上 存在 不 同 。 专 用 指令 ( CLREX) 告诉 处 理 器 
放弃 对 于 之 前 请 求 的 内 存 地 址 的 独占 访问 。 

8 条 CRC 指令 可 以 用 于 计算 字 节 、 半 字 、 字 或 者 双 字 的 循环 元 余 校 验 (CRC-32 或 CRC-32C)， 
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以 便 捕获 大 数据 集中 的 错误 (参考 5.5 节 的 精 解 部 分 )。 类 似 的 ，15 条 ”条 密码 ( cryptographic) 
指令 使 用 SIMD 寄存 器 来 加 速 高 级 加 密 标 准 ( Advanced Encryption Standard，AES)、 伽 罗 瓦 / 
计数 器 模式 (GaloisCounter Mode, GCM) 以 及 安全 哈 希 算法 (Secure Hash Algorithm, SHA) 
的 加 密 过 程 。 














































































































































Wp TT Load Nontemporal Pair LOTR Load Unprivileged registe r 
STNP Store Non-temporal Pair LDTRB | Loed Unprivileged byte 
CLREX Clear exclusive monitor LDTRSB | Load Unprivieged signed byte 
栅栏 | DS8 Data synchronization barrier LDTRH | Load Unprivileged halfword 
DMB Data memory barrier LDTRSH | Load Unpriviieged signed hatfword 
1S8 Instruction synchronization barrier 非特 权 | LOTRSW | Load Unprivileged signed word 
CRC328 | cRC32 sum from byte STTR Store Unprvheged registe r 
CRC32H | cRC32 sum from halfword STTRB | Store Unprivieged byte 
CRC32W | CRC 32 sum from word STTRH | Store Unprivieged halfword 
crc [ncaa | cre 32 sum from doubieword BRK Software breakpoint instructio n 
CRC32CB | CRC.32C sum from bye HT Halting software breakpoint instructio n 
CRC32CH | cRC32Csum from halfword 异常 vc Generate exceptlon targeting Exception level 2 
CRC32CM | CRC32Csum from word SMC Generate exception targeting Exceptlon level 3 
CRCI2CN | CRC32C sum from doubleword SVC Generate exception targeting Exception level 1 
AESD AES single round decryption ERET Exception return using current ELR and SPSR 
AESE AES single round encryption DCpPS1 Debug switch to Exception level 1 
AESIMC | AES inverse mix columns, 调试 | DCPS2 Switch to nlevel 2 
AESMC AES Mix columns, DCPS3 Debug switch to Exception level 3 
[PMULL Polynomial muitiply long DRPS Debug restore PE state 
[SHalc SHA1 hash update (choose) SYS System instruction 
SHA1H SHA1 fixed rotate SYSL System instruction with result 
密码 | SHALN SHA1 hash update (malority) IC Instruction cache maintenance 
SHAIP SHAL hash update (parity) 系统 | DC Data cache maintenance 
SHA1SU0 SHA1 schedule update 0 AT Address translation 
SHA1SU1 | SHA1 schedule update 1 TIBI TLB Invalidate 
SHA256H | SHA256 hash update (par 1) NOP No operation 
SHA256H2 Yield hint 
SHA256SUO WFE Wait for event 
SHA256SU1 提示 | Wait for interrupt 
移动 | MRS Move system reglster to general-purpose regjster SEV tt 
系统 | HSR Move goneral purpose rogister or immediate to 一 了 
| 寄存 锅 | system Tegleter HINT Unallocated hint 











图 5-47 完整 ARMv8 指令 集中 的 系统 和 特殊 操作 的 汇编 语言 指令 。 粗 体 的 指令 同样 存在 于 LEGv8 中 


2 条 移动 系统 寄存 器 指令 ，MSR 指令 将 数据 从 一 个 通用 寄存 器 或 将 一 个 立即 数 移 到 处 理 
器 状态 寄存 器 中 ，MRS 指令 将 数据 从 处 理 器 状态 寄存 器 移 到 一 个 通用 寄存 器 中 。 上 述 31 条 
指令 涵盖 了 一 半 的 ARMv8 特殊 指令 和 系统 指令 。 

从 图 5-47 右 侧 顶部 开始 ，9 条 处 理 不 同 数据 宽度 的 “非特 权 ”( unprivileged) load 和 
store 指令 ， 使 在 EL1 中 断 等 级 的 处 理 器 执行 load 和 store 时 ， 表 现 得 好 像 是 在 EL0 等 级 进 
行 操作 一 样 ， 这 就 意味 着 它们 可 能 有 保护 故障 。 在 EL0 或 高 于 EL1 的 层次 执行 时 ,它们 表 
现 得 如 同 普通 的 load 和 store。 

异常 产生 指令 包括 软件 断 点 (Software Breakpoint, BRK)、 停 止 软件 断 点 (Halting Software 
Breakpoint，HLT)、 管 理 程序 调用 ( Supervisor Call，SVC) 以 及 2 条 类 似 于 SVC 的 指令 (不 
同 之 处 在 于 这 2 条 指令 会 进入 更 高 的 异常 级 : HVC 进入 管理 级 ( EL2 )， 而 SMC 进入 安全 监 
视 器 级 (EL3 ))。 异 常 返 回 (Exception RETurn ，ERET) 指令 允许 从 异常 中 返回 。 


日 原 书 为 14 条， 应 为 笔 误 一 一 译 者 注 
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4 条 调试 指令 中 ，DCPS1、DCPS2、DCPS3 指令 切换 到 更 高 的 异常 等 级 ，DRPS 指令 还 
原 之 前 的 处 理 器 单元 状态 。 

6 条 系统 管理 指令 ， 包 括 2 条 通用 指令 (SYs 和 SYSL)， 以 及 4 条 存储 器 层次 管理 指令 、 
分 别 为 指令 cache、 数 据 cache、 地 址 转换 以 及 TLB 作废 。 

最 后 ，7 条 提示 ( hint) 指令 提供 了 各 种 体系 结构 提示 ， 包 括 等 待 中 断 、 等 待 数据 、 发 送 
事件 、 让 步 (yield) 以 及 nop。 图 5-47 右边 的 32 条 指令 使 完整 ARMv8 指令 集中 的 特殊 指 
令 和 系统 指令 达到 63 条 。 


5.15 ”加速 : cache 分 块 和 矩阵 乘法 

下 面 我 们 继续 从 底层 硬件 的 角度 优化 DGEMM 的 性 能 ， 将 cache 分 块 技术 加 入 到 第 3 章 
和 第 4 章 的 子 字 并 行 和 指令 级 并 行 优化 中 。 图 5-48 给 出 了 图 4-78 中 DGEMM 的 分 块 版 本 。 
其 变化 与 之 前 从 图 3-22 中 未 优化 的 DGEMM 版 本 到 图 5-21 的 分 块 版 本 类 似 。 此 处 我 们 使 用 
第 4 章 中 循环 展开 后 的 DGEMM 版 本 ,并 将 其 在 A、B、C 的 子 矩阵 上 多 次 调用 。 事 实 上 ， 
除了 用 循环 展开 量 增加 第 7 行 中 的 for 循环 外 ， 图 5-48 中 第 28 一 34 行 和 第 7 一 8 行 分 别 与 
图 5-21 中 第 14 ~ 20 行 和 第 5 一 6 是 相同 的 。 








1 #include <x86intrin.n> 
2 #define UNROLL (4) 
3 #define BLOCKSIZE 32 
4 void do_block (int n, int si, int sj, int sk, 
5 double *A, double *B, double *C) 
61 
7 for ( int i = si; i < si+BLOCKSIZE; i+=UNROLL*4 ) 
8 for ( int j = sj; j < sj+BLOCKSIZE; j++ ) 1 
9 — m256d c[4]; 
10 for ( int x = 0; x < UNROLL; x++ ) 
11 C[x] = _mm256_10ad_pd(C+it+x*4+j*n): 
12 /* c[x] = C[i]rj] */ 
13 for( int k = sk; k < sk+BLOCKSIZE; k++ ) 
14 ， 
JS —Mm256d b = _mm256_broadcast_sd(B+k+j*n); 
16 1* b = BLKJLjY */ 
17 for (int x = 0; x < UNROLL; x++) 
18 Cc[x] = _mm256_add_pd{(c[x]. /* Cc[x]+=A[i][k]*b */ 
19 _mm256_mul_pd(_mm256_load_pd(Atn*k+x*4+i), b)); 
20 } 
21 
22 
23 for ( int x = 0; x < UNROLL; x++ ) 
24 MMm256_store_pd(C+i+x*4+j*n, cLx]): 
Er EFTbtY w= win “Ff 
25 } 
26 | 
27 
28 void dgemm (int n, double* A, double* B, double* C) 
9 + 
30 for ( int sj = 0; sj < n; sj += BLOCKSIZE ) 
3 CIKSEZE 
32 for ( int sk = 0; sk < n; sk += BLOCKSIZE ) 
33 do_block(n, si, sj。 sk. A. B, C); 
34 } 











图 5-48 图 4-78 中 DGEMM 使 用 cache 分 块 优化 后 的 C 版 本 。 这 些 变化 与 图 5-21 中 的 相同 。 编 译 器 
为 do_block 函数 生成 的 汇编 代码 与 图 4-79 中 的 代码 几乎 相同 。 需 要 再 次 强调 的 是 ， 由 于 
编译 器 采用 内 联 函 数 调用 ， 调 用 do_block 并 没有 开销 
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与 前 面 的 章节 不 同 ， 本 节 没 有 给 出 对 应 的 x86 代码 ， 原 因 是 内 循环 代码 与 图 4-79 中 的 
代码 几乎 相同 ， 分 块 并 未 影响 计算 ， 影 响 的 只 是 访问 存储 器 中 数据 的 顺序 。 发 生变 化 的 是 
实现 循环 的 短 记 整数 指令 。 从 图 4-78 中 内 循环 之 前 的 14 条 指令 和 之 后 的 8 条 指令 ， 分 别 扩 
展 为 图 5-48 中 产生 的 簿 记 代码 中 内 循环 之 前 的 40 条 指令 和 之 后 的 28 条 指令 。 然 而 ， 相 比 
cache 缺失 率 减少 带 来 的 性 能 提升 ， 这 些 额 外 的 指令 开销 就 显得 微不足道 了 。 图 5-49 对 比 了 
未 优化 的 以 及 采用 子 字 并 行 、 指 令 级 并 行 和 cache 优化 的 情况 。 对 于 大 和 矩阵， 分 块 相 对 于 展 
开 的 AVX 代码 ， 性 能 提升 了 2 ~ 2.5 倍 。 如 果 同 时 采用 这 三 种 优化 技术 ， 则 性 能 提高 8 一 15 
倍 ， 且 和 拢 阵 越 大 ， 人 性 能 提升 越 大 。 


四 32x32 如 160x160 加 480x480 六 960x960 
i 








8.0 才 - 


GFLOPS 
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1.7 1.5 
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来 优化 AVX AYX + 展开 AVX + 展开 + 阻塞 cache 
图 5-49 和 矩阵 规模 从 32x32 到 960 x 960 间 四 种 版 本 DGEMM 的 性 能 。 对 于 最 大 的 
和 矩阵， 完全 优化 的 代码 的 性 能 几乎 是 图 3-22 中 未 优化 代码 的 15 倍 


睛 毅 | 如 3.9 节 中 精 解 所 述 ， 这 些 结果 都 是 在 Turbo 模式 关闭 时 获得 的 。 如 第 3 章 和 第 
4 章 ， 若 将 Turbo 模式 打开 ， 通 过 将 时 钟 频率 临时 增加 到 3.6/2.6 = 1.27 倍 ， 可 以 改进 所 有 的 
结果 。 在 这 种 情况 下 ， 由 于 只 使 用 了 片上 八 个 核 中 的 一 个 核 ， 因 此 Turbo 模式 运行 得 很 好 。 
然而 ， 如 果 要 运行 得 更 快 ， 就 需要 使 用 所 有 的 核 ， 这 将 在 第 6 章 中 讲述 。 


5.16” 廖 误 与 陷阱 


作为 计算 体系 结构 中 最 自然 的 定量 部 分 ， 存储器 层次 结构 看 似 不 太 容易 受到 雇 误 和 陷阱 
的 影响 。 但 实际 上 不 仅 有 许多 廖 论 传播 ， 而 且 遇 到 了 陷阱 ， 有 些 还 导致 了 重大 的 负面 结果 。 
下 面 以 学 生 在 练习 和 考试 中 经 常 遇 到 的 一 个 陷阱 开始 讲解 。 

陷阱 : 在 写 程序 或 编译 器 生成 代码 时 忽略 存储 系统 的 行为 。 

这 也 可 以 写成 一 个 廖 误 :“ 写 代码 时 ， 程 序 员 可 以 忽略 存储 器 层次 结构 。” 图 5-19 中 的 
排序 和 5.14 节 的 cache 分 块 证 明了 ， 如 果 程 序 员 在 设计 算法 时 考虑 存储 系统 的 行为 ， 则 很 容 
易 将 性 能 翻 倍 。 

陷阱 : 模拟 cache 时 ， 忘 记 算 上 字 节 编 址 或 cache 块 大 小 。 

模拟 cache 时 〈 手 动 或 通过 计算 机 )， 我 们 必须 保证 ， 在 确定 一 个 给 定 的 地 址 被 映射 到 哪 
个 cache 块 中 时 ， 必 须 考虑 字 节 编 址 和 多 字 块 的 影响 。 例 如 ， 一 个 容量 为 32 字 节 的 直接 映 
射 cache， 块 大 小 为 4 字 节 ， 则 字 节 地 址 36 映射 到 cache 块 1， 因 为 字 节 地 址 36 是 块 地址 9， 
而 (9mod 8 ) = 1。 另 一 方面 ， 如 果 地 址 36 是 一 个 字 地 址 ,那么 就 映射 到 块 (36 mod 8 ) = 4。 
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要 确保 清楚 地 说 明了 地 址 的 基 。 
同样 ， 我 们 必须 说 明 块 的 大 小 。 假 设 cache 有 256 字 节 ， 块 大 小 为 32 字 节 。 那 么 字 节 
地 址 300 应 落 人 哪 一 块 中 ?如 果 我 们 将 地 址 300 划分 成 字段 ， 就 能 看 到 答案 : 


i 














于 有 a wa 
cache 块 号 块 内 偏 移 
块 地 址 
字 节 地 址 300 是 块 地 址 
Es | 
二 |=9 
32 
cache 中 的 块 数 是 
[党 | 
|=8 
32 


块 号 9 对 应 于 cache 块 号 (9 mod 8)=1。 

这 个 错误 很 多 人 都 犯 过 ， 包 括 作 者 (在 早期 的 书稿 中 ) 和 那些 忘记 自己 预期 的 地 址 是 双 
字 、 字 、 字 节 或 块 号 的 教师 。 当 你 做 练习 时 一 定 要 注意 这 个 陷阱 。 

陷阱 ， 对 于 共享 cache， 组 相 联 度 少 于 核 的 数量 或 少 于 共享 该 cache 的 线程 数 。 

如 果 不 特别 注意 ， 一 个 运行 在 2" 个 处 理 器 或 线程 上 的 品 苦 程序 可 以 轻易 为 数据 结构 分 
配 地 址 ， 而 该 地 址 可 能 映射 到 共享 L2 cache 的 同一 个 组 中 。 如 果 cache 至 少 是 2" 路 组 相 联 ， 
那么 通过 硬件 可 以 隐藏 这 些 程序 偶尔 发 生 的 冲突 。 如 果 不 是 ， 程 序 员 则 可 能 要 面 对 明显 的 性 
能 缺陷 一 一 由 L2 cache 冲突 缺失 引起 的 一 一 在 程序 迁移 时 发 生 ， 例 如 从 16 核 的 设计 迁移 到 
32 核 的 设计 上 ， 如 果 它 们 都 使 用 16 路 组 相 联 的 L2 cache。 

陷阱 : 使 用 存储 器 平均 访问 时 间 来 评估 乱 序 执行 处 理 器 的 存储 器 层次 结构 。 

如 果 一 次 cache 缺失 中 处 理 器 阻塞 了 ， 那 么 你 可 以 分 别 计算 存储 器 阻塞 时 间 和 处 理 器 执 
行 时 间 ， 因 此 可 以 使 用 存储 器 平均 访问 时 间 来 独立 地 评估 存储 器 层次 结构 ( 见 5.4 节 )。 

如 果 处 理 器 在 cache 缺失 时 继续 执行 指令 ,并且 甚至 可 能 维持 更 多 的 cache 缺失 ,那么 
唯一 可 以 用 来 精确 评估 存储 器 层次 结构 的 方法 是 模拟 乱 序 执行 处 理 器 以 及 存储 器 层次 结构 。 

陷阱 :通过 在 未 分 段 的 地 址 空间 的 顶部 增加 段 来 扩展 地 址 空间 。 

20 世纪 70 年 代 ， 很 多 程序 都 变 得 很 大 ， 以 至 于 不 是 所 有 的 代码 和 数据 都 能 仅 用 16 位 地 
址 寻 址 。 于 是 计算 机 进行 了 修改 ， 提 供 32 位 地 址 ， 或 通过 使 用 未 分 段 的 32 位 地 址 空间 (也 
称 为 平面 地 址 空间 ( flat address space))， 或 通过 将 16 位 的 段 地 址 加 到 已 存在 的 16 位 地 址 上 。 
从 市 场 角度 来 看 ， 增 加 程序 员 可 见 的 段 ， 并 连 使 程序 员 和 编译 器 将 程序 划分 成 段 ， 可 以 解决 
寻 址 问题 。 但 遗憾 的 是 ， 任 何 时 候 ， 当 一 种 程序 设计 语言 要 求 的 地 址 大 于 段 时 就 会 产生 麻烦 ， 
例如 大 数组 的 索引 、 无 限制 的 指针 或 是 引用 参数 。 此 外 ， 增 加 段 可 以 将 每 个 地 址 变 成 两 个 
字 一 一 一 个 用 于 段 号 ， 另 一 个 用 于 段 内 偏 移 一 一 在 使 用 寄存 器 中 的 地 址 时 就 会 出 现 问题 。 

雇 误 : 实际 的 磁盘 故障 率 和 规格 说 明 中 声明 的 一 致 。 

最 近 两 项 研究 评估 了 大 量 磁盘 ， 检 查 运 行 的 实际 结果 和 规格 说 明之 间 的 关系 。 其 中 一 项 
研究 了 近 100 000 个 磁盘 ， 这 些 磁盘 标 称 其 MTTF 为 1 000 000 ~ 1 500 000 小 时 ， 或 AFR 
为 0.6% 一 0.8%。 他 们 发 现 2% 一 4% 的 AFR 是 常见 的 ， 通 常 比 标 称 故 障 率 高 3 一 5 倍 [ Sch- 
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roeder 和 Gibson,2007 ] 。 另 一 项 研究 了 Google 的 100 000 多 个 磁盘 ( 标 称 具有 1.5% 的 AFR)， 
发 现 第 一 年 磁盘 故障 率 为 1.7%， 到 第 三 年 磁盘 故障 率 上 升 到 8.6%， 即 标 称 故障 率 的 5 一 6 
倍 [ Pinheiro、Weber 和 Barroso，2007 ] 。 

廖 误 : 操作 系统 是 调度 磁盘 访问 最 好 的 地 方 。 

如 5.2 节 所 提 到 的 ， 高 层 磁盘 接口 为 宿主 操作 系统 提供 逻辑 块 地 址 。 考 虑 到 这 一 高 层 抽 
象 ，OS 所 能 做 的 提升 性 能 最 好 的 方法 是 将 逻辑 块 地 址 按照 递增 的 顺序 排序 。 然 而 ， 由 于 磁 
盘 知 道 边 辑 地 址 被 映射 到 实际 的 物理 遍 区 、 磁 道 以 及 磁 面 上 ， 因 此 可 以 通过 重 调度 减少 旋转 
以 及 寻 道 的 时 间 。 

例如 ， 假 设 工作 负载 是 四 个 读 操作 [ Anderson，2003 ]: 
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宿主 OS 可 以 将 四 个 读 操作 重新 排序 为 逻辑 块 的 顺序 : 





























操作 
读 26 128 

sl 
读 724 8 
汪汪 二 全 


依赖 于 数据 在 磁盘 上 的 相对 位 置 ， 重 排序 可 能 会 使 情况 变 得 更 糟 ， 如 图 5-50 所 。 磁 盘 
调度 的 读 操作 在 磁盘 3/4 的 旋转 周期 就 全 部 完成 ， 而 操作 系统 调度 的 读 操作 花费 了 三 个 旋转 
周期 。 





一 宿主 顺序 队列 
一 > 驱动 顺序 队列 














图 5-50 OS 调度 与 磁盘 调度 访问 的 例子 ， 标 记 为 宿主 顺序 队列 和 驱动 顺序 队列 。 前 者 完成 四 个 读 操作 
需要 三 个 旋转 周期 ， 而 后 者 仅 在 3/4 的 旋转 周期 即 可 完成 (资料 来 源 : Anderson [2003 ]) 


陷阱 : 在 不 面向 虚拟 化 设计 的 指令 集体 系 结构 上 实现 虚拟 机 监视 器 。 
在 20 世纪 70 年 代 和 80 年代， 很 多 计算 机 架构 师 并 未 确保 所 有 读 写 与 硬件 资源 相关 信 
息 的 指令 都 是 特权 指令 。 这 种 放任 的 态度 导致 了 这 些 体系 结构 上 的 VMM 都 存在 问题 ,包括 
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x86 (这 里 以 此 为 例 )。 
图 5-51 描述 了 18 条 造成 虚拟 化 问题 的 指令 [ Robin 和 Irvine,2000 ]。 其 中 两 大 类 指令 是 : 
。 在 用 户 模式 下 读 控制 寄存 器 ， 显 示 客 户 操作 系统 运行 在 一 个 虚拟 机 上 (如 前 面 提 到 的 
POPF), 
。 检查 段 式 体系 结构 所 需 的 保护 ， 但 假设 操作 系统 运行 在 最 高 特权 级 。 








x86 


存储 全 局 描述 符 表 寄存 器 ( SGDT ) 

存储 局 部 描述 符 表 寄存 器 ( SLDT ) 

存储 中 断 描述 符 表 寄存 器 ( SIDT ) 

存储 机 器 状态 字 (SMSW ) 

标志 入 栈 ( PUSHF，PUSHFD ) 

标志 出 栈 (POPF，POPFD ) 

从 段 措 述 符 读 取 访 问 权限 ( LAR ) 

从 段 描述 符 读 取 段 的 边界 ( LSL ) 

检验 段 描述 符 是 否 可 读 ( VERR ) 

检验 段 描述 符 是 否 可 写 ( VERW ) 
在 用 户 模式 下 访问 虚拟 存储 机 制 时 ， 弹 村 到 段 寄存 器 ( POP CS，POPSS，.…) 

指令 在 x86 保 护 检查 中 失效 段 寄存 器 压 栈 | PUSH CS，PUSH SS，…) 

远程 调用 不 同 的 特权 级 ( CALL ) 

远程 返回 至 不 同 的 特权 级 ( RET ) 

远程 跳 转 至 不 同 的 特权 级 ( JMP ) 

软件 中 断 { INT ) 

存储 段 选择 寄存 器 ( STR ) 

移入 /移出 段 寄存 器 ( MOVE ) 





在 用 户 模式 运行 时 ， 访 问 敏感 寄存 器 
而 没有 陷入 

















图 5-51 造成 虚拟 化 问题 的 18 条 x86 指令 [ Robin 和 Irvine，2000 ]。 上 面 一 组 的 前 5 条 指令 允许 用 
户 模式 下 的 程序 读 控制 寄存 器 【例如 描述 符 表 寄 存 器 )， 而 不 会 造成 陷 人 。 标 志 出 栈 指令 用 敏 
感 信息 修改 控制 寄存 器 ， 但 在 用 户 模式 下 将 失效 而 无 任何 提示 。x86 段 式 体系 结构 的 保护 检 
查 在 下 面 一 组 指令 中 ， 读 取 控制 寄存 器 时 ， 这 些 指令 都 会 隐 式 地 检查 特权 级 ， 作 为 指令 执行 
的 一 部 分 。 进 行 检查 时 操作 系统 必须 运行 在 最 高 特权 级 ， 但 对 客户 虚拟 机 没有 这 样 的 要 求 。 
只 有 移入 段 寄 存 器 指令 试图 修改 控制 状态 ， 但 是 ， 保 护 检查 同样 会 阻止 它 这 么 做 


为 了 简化 x86 上 VMM 的 实现 ，AMD 和 Intel 都 提出 通过 新 的 模式 扩展 体系 结构 。Intel 
的 VT-x 为 虚拟 机 运行 提供 了 一 个 新 的 执行 模式 、 一 个 面向 虚拟 机 状态 的 体系 结构 定义 、 快 
速 虚拟 机 切换 指令 ， 以 及 一 大 组 用 来 选择 VMM 调 人 的 环境 参数 。 总 之 ，VT-x 在 x86 中 增 
加 了 11 条 新 指令 。AMD 的 Pacifica 做 了 相似 的 改进 。 

另 一 种 修改 硬件 的 方法 是 ， 对 操作 系统 做 微小 的 改动 以 避免 使 用 体系 结构 中 麻烦 的 部 
分 。 这 种 技术 称 为 泛 虚拟 化 (paravirtualization)， 例 如 开源 的 Xen VMM 就 是 一 个 很 好 的 例 
子 。Xen VMM 提供 给 客户 操作 系统 一 个 虚拟 机 抽象 ， 仅 使 用 VMM 所 运行 的 x86 物理 硬件 
中 易于 虚拟 化 的 部 分 。 


5.17 本章 小 结 


构建 一 个 能 和 快速 处 理 器 保持 同步 的 存储 系统 非常 困难 ， 原 因 是 无 论 在 最 快 的 计算 机 还 
是 最 慢 最 便宜 的 计算 机 中 ， 构 成 主 存 的 原材料 一 -DRAM 本 质 上 都 是 相同 的 。 

局 部 性 原理 为 克服 存储 器 访问 的 长 延迟 提供 了 机 会 一 一 这 一 策略 的 正确 性 已 在 性 竹器 层 
斌 本 移 的 各 级 中 得 到 了 证 明 。 尽 管 这 些 层次 从 量 的 角度 来 看 非常 不 同 ， 但 是 在 操作 过 程 中 都 
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遵循 相似 的 策略 ， 并 且 开 发 相同 的 局 部 性 。 

多 级 cache 可 以 更 方便 地 使 用 更 多 的 优化 ， 主 要 有 两 个 原因 。 第 一 ， 较 低级 cache 的 设 
计 参 数 与 一 级 cache 不 同 。 例 如 ， 较 低级 cache 的 容量 要 大 得 多 ， 因 此 可 以 使 用 更 大 的 块 。 
第 二 ， 较 低级 cache 并 不 像 一 级 cache 那样 不 断 被 处 理 器 使 用 。 这 使 得 我 们 考虑 可 以 使 较 低 
级 cache 在 其 空闲 时 做 一 些 事情 ， 以 预防 将 来 的 缺失 。 

另 一 个 趋势 是 寻求 软件 的 帮助 。 使 用 多 种 程序 转换 和 硬件 设备 来 有 效 管 理 存储 器 层次 结 
构 ， 是 优化 编译 器 的 主要 焦点 。 两 种 不 同 的 想法 正在 探索 中 。 一 种 是 重新 组 织 程序 结构 以 增 
强 其 空间 和 时 间 局 部 性 。 这 种 方法 主要 针对 以 大 数组 为 主要 数据 结构 的 面向 循环 的 程序 ; 大 
规模 的 线性 代数 问题 就 是 一 个 典型 的 例子 ,例如 DGEMM。 通 过 重新 组 织 访问 数组 的 循环 可 
以 大 幅 改善 局 部 性 一 一 也 因此 改进 了 cache 性 能 。 we ee ey 

另 一 种 方法 是 预 取 (prefetching)。 在 预 取 机 制 中 ， 一 个 数据 块 特殊 指令 将 未 来 可 能 用 到 
在 被 真正 访问 之 前 先 被 放 入 cache 中 。 很 多 微 处 理 器 使 用 硬件 预 取 ”| 的 cache 块 提前 报到 cache 
以 尝试 冉 油 那些 对 软件 而 言 很 难 发 现 的 访问 。 中 的 一 种 技术 。 

第 三 种 方法 是 使 用 特殊 的 cache 感知 指令 来 优化 存储 器 传输 。 
例如 ，6.10 节 中 的 微 处 理 器 使 用 了 一 种 优化 设计 : 当 发 生 写 缺失 时 ， 并 不 从 主 存 中 取出 块 的 
内 容 ， 因 为 程序 要 写 整 个 块 。 对 于 内 核 来 说 ， 这 种 优化 明显 减少 了 存储 器 的 传输 。 

我 们 将 在 第 6 章 中 看 到 ， 对 并 行 处 理 器 来 说 ， 存 储 系统 是 一 个 核心 设计 问题 。 存 储 器 层 
次 结构 决定 系统 性 能 的 重要 性 在 不 断 增 长 ， 这 也 意味 着 在 未 来 的 几 年 内 ， 这 一 领域 对 设计 者 
和 人 研究 者 来 说 将 持续 成 为 焦点 。 


5.18 历史 观点 与 拓展 阅读 


本 节 内 容 在 网 站 上 ， 给 出 了 存储 器 技术 的 概况 ， 从 水 银 延 迟 线 到 DRAM、 存 储 器 层 
次 结构 的 发 明 、 保 护 机 制 和 虚拟 机 ， 以 及 对 操作 系统 发 展 历史 的 简单 总 结 ， 包 括 CTSS、 
MULTICS、UNIX、BSD UNIX、MS-DOS、Windows 和 Linux。 


5.19 练习 题 
除了 特别 说 明 外 ， 假 定 存储 器 采用 字 节 寻 址 ， 并 且 一 个 字 为 64 位 。 
5.1 本题 考察 矩阵 计算 中 存储 器 的 局 部 特性 。 下 面 的 代码 由 C 语言 编写 ， 同 一 行 中 的 元 素 连 续 存放 。 
假定 每 个 字 是 一 个 64 位 整数 。 
tor F100 148» 1++) 
for (J=0; J¢8000; J++) 
ALI][J]-B[I][0]+A[J][I]: 
5.1.1 [5] <5.1> 一 个 16 字 节 的 cache 块 中 可 以 存放 多 少 64 位 的 整数 ? 
15] <5.1> 访 问 哪些 变量 会 显示 出 时 间 局 部 性 ? 
5.1.3 [5] <5.1> 访 问 哪些 变量 会 显示 出 空间 局 部 性 ? 
局 部 性 同时 受 访问 顺序 和 数据 存放 位 置 的 影响 。 同 样 的 计算 也 可 以 用 下 面 的 MATLAB 语言 
写 ， 但 与 C 代码 不 同 的 是 ， 下 面 的 代码 将 同一 列 的 矩阵 元 素 连 续 存 放 。 


for I=1:8 
for J=1:8000 
A(I,J)=B(I,0)+A( .IT); 
end 
end 
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5.1.4 
5.1. 
5.1.6 


52 


5.2.1 


5.2.2 


5.2.3 


5.3 


5.3.1 


5.3.2 


5.3.3 


5.3.4 


5.4 


5.5 


5.5.1 
5.5.2 
5.5.3 


[5 ] <5.1 > 访问 哪些 变量 会 显示 出 时 间 局 部 性 ? 

[5 ] < 5.1 > 访问 哪些 变量 会 显示 出 空间 局 部 性 ? 

[15] < 5.1 > 存放 使 用 MATLAB 的 矩阵 的 64 位 矩阵 元 素 需 要 多 少 16 字 节 的 cache 块 ? (假设 
每 行 包含 多 于 一 个 元 素 ) 

cache 对 于 向 一 个 处 理 器 提供 高 性 能 存储 器 层次 结构 而 言 十 分 重要 。 下 面 是 一 系列 64 位 存储 器 
地 址 引用 ， 给 出 的 是 字 地 址 。 


D0x03, Oxb4, Ox2b, Ox02, Oxbf, Ox58, Oxbe, Ox0e, Oxb5, 
Dx2c, Oxba, Oxfd 


[10] <5.3> 已 知 一 个 直接 映射 cache， 有 16 个 块 ， 块 大 小 为 1 个 字 。 对 于 每 次 访问 ,确定 二 
进 制 字 地 址 、 标 记 以 及 索引 ， 并 列 出 每 次 访问 是 命中 还 是 缺失 。 假 设 cache 最 开始 为 空 。 
[10] <5.3> 已 知 一 个 直接 映射 cache， 有 8 个 块 ， 块 大 小 为 2 个 字 。 对 于 每 次 访问 ， 确 定 二 进 
制 宇 地址、 标记 以 及 索引 ， 并 列 出 每 次 访问 是 命中 还 是 缺失 。 假 设 cache 最 开始 为 空 。 

[20 ] < $.3, 5.4 > 请 你 对 已 知 的 访问 优化 cache 设计 。 这 里 有 三 种 可 能 的 直接 映射 cache 设计 方 
案 ， 每 个 容量 都 为 8 个 字 : 

e Cl 块 大 小 为 1 个 字 。 

es C2 块 大 小 为 2 个 字 。 

se C3 块 大 小 为 4 个 字 。 

按照 惯例 ，cache 通常 根据 其 包含 的 数据 量 命名 (例如 一 个 4KiB 的 cache 可 以 持 有 4KiB 的 数 
据 ); 然而 ，cache 还 需要 SRAM 存储 元 数据 ， 例 如 标记 位 和 有 效 位 。 本 题 中 ， 你 将 会 观察 
到 cache 配置 将 会 如 何 影响 其 实现 所 需要 的 SRAM 容量 ， 以 及 不 同 配置 对 cache 性 能 的 影响 。 
假定 cache 按 字 节 寻 址 ， 地 址 和 字 都 是 64 位 。 

10] < 5.3 > 计算 实现 一 个 32KiB 、 块 大 小 1 个 字 的 cache 所 需要 的 总 位 数 。 

10 ] < 5.3 > 计算 实现 一 个 64KiB 、 块 大 小 16 个 字 的 cache 所 需要 的 总 位 数 。 这 个 cache 比 练 
习题 5.3.1 中 的 cache 大 了 多 少 ? (注意 ， 通 过 改变 块 大 小 .我 们 将 数据 量 增加 了 一 倍 ,但 整 
个 cache 的 大 小 并 没有 增 大 一 倍 。) 

5] <5.3> 解 释 为 何 64KiB 的 cache， 尽 管 其 数据 规模 比较 大 ， 但 所 提供 的 性 能 可 能 比 第 一 个 
cache 要 低 。 

10 ] < 5.3, 5.4> 请 给 出 一 系列 的 读 请 求 ， 使 其 在 32KiB 的 两 路 组 相 联 cache 上 的 失效 率 要 低 于 
练习 题 5.3.1 中 的 cache。 

15 ] < 5.3 > 5.3 节 中 展示 了 索引 直接 映射 cache 的 典型 方法 ， 即 ( 块 地 址 ) mod (cache 中 的 块 
数 )。 假 设 一 个 64 位 地 址 的 cache， 含 有 1024 个 块 ， 考 虑 一 种 不 同 的 索引 方法 : 块 地 址 的 
63:54] 位 异 或 块 地 址 的 [53:44] 位 。 能 否 使 用 该 方法 来 索引 直接 映射 cache ? 如 可 以 ， 解 释 原 
因 ， 并 讨论 cache 可 能 需要 的 修改 。 如 果 不 可 以 ， 解 释 原因 。 

对 于 一 个 64 位 地 址 的 直接 映射 cache， 下 面 的 地 址 位 用 来 访问 cache- 


[ 53~10 | 9-5 

















[5] < 5.3> cache 块 的 大 小 是 多 少 (单位 为 字 ) ? 

[5] <5.3> cache 有 多 少 项 ? 

[5 ] < 5.3> 这 样 的 cache 实现 时 所 需 的 总 位 数 与 数据 存储 位 数 之 间 的 比率 是 多 少 ? 
下 表 记录 了 从 上 电 开 始 后 cache 访问 的 字 节 地 址 
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5.6 


HH 六 进 制 | 00 | 04 | 10 | 84 | E8 | Ao [400[ 1E | sc [cic| B4 [884| 
十进制 | 0 4 | 16 | 132 | 232 | 160 |1024| 30 | 140 | 3100 | 180 | 2180 | 























[20 ] < 5.3 > 对 于 每 个 访问 而 言 ， 请 列 出 : 标记 、 索 引 、 偏 移 ，@ 是 否 命中 或 缺失 ，@ 哪 些 
字 节 被 替换 (如 果 有 ) 

[5] < 5.3 > 命中 率 是 多 少 ? 

[5] < 5.3> 列 出 cache 的 最 终 状态 ， 每 个 有 效 项 表示 为 < 索引 ,标记 ， 数 据 > 的 形式 。 例 如 ， 
<0, 3, Mem[OxC00]-Mem[ OxC1F]> 


回顾 两 个 写 策略 和 写 分 配 策略 ， 其 组 合 既 可 以 在 LI cache 中 实现 ， 也 可 以 在 L2 cache 中 实现 
假定 LI 和 L2 cache 选择 如 下 : 


"ns 


[” 写 直 达 ， 非 写 分 配 写 回 ， 写 分 配 ] 











[5 ] < 5.3, 5.8 > 存储 器 层次 结构 的 不 同 层次 之 间 使 用 缓冲 区 ( buffer) 来 降低 访问 延迟 。 对 这 
个 给 定 的 配置 , 列 出 L1 与 L2 cache 之 间 ， 以 及 L2 cache 与 存储 器 之 间 可 能 需要 的 缓冲 区 。 
[20 ] < 5.3, 5.8> 描述 处 理 L1 cache 写 缺失 的 过 程 ， 考 虑 涉及 的 组 件 以 及 替换 一 个 脏 块 的 可 
能 性 。 

[20 ] < 5.3, 5.8 > 对 于 一 个 多 级 独占 cache (一 个 块 只 能 存放 在 Ll 和 L2 cache 中 的 一 个 ) 配置 ， 
描述 一 个 LI 写 缺失 和 一 个 L1 读 缺 失 的 处 理 过 程 ， 考 虑 涉及 的 组 件 以 及 替换 一 个 脏 块 的 可 能 性 。 
考虑 下 面 的 程序 和 cache 行为 。 








[ 250 100 0.30% 2% 64 | 

















[10] <5.3, 5.8 > 假定 一 个 CPU， 使 用 写 直 达 法 、 写 分 配 策略 cache，CPI 为 2， 那 么 RAM 和 
cache 之 间 的 读 写 带宽 是 多 少 (以 每 周期 的 字 节 数 测量 ) ? (假设 每 个 缺失 都 会 产生 对 一 个 块 的 
请 求 ) 

[10 ] < 5.3, 5.8 > 对 于 一 个 使 用 写 回 、 写 分 配 策略 的 cache， 假 定 30% 被 替换 的 数据 块 为 脏 块 ， 
如 果 CPI 为 2， 那么 所 需 的 读 / 写 带宽 是 多 少 ? 

播放 音频 或 视频 文件 的 多 媒体 应 用 是 一 类 被 称 为 “ 流 ” 负 载 ( 取 入 大 量 数据 ， 但 大 部 分 数据 都 
不 会 再 使 用 ) 的 一 部 分 。 考 虑 一 个 视频 流 负载 ， 依 次 访问 一 个 512KiB 的 工作 集 ， 字 地 址 流 如 下 : 
和 

[10] <5.4, 5.8 > 假设 有 一 个 64KiB 的 直接 映射 cache， 块 大 小 为 32 字 节 。 那 么 对 于 上 面 的 
地 址 流 ， 缺 失 率 是 多 少 ? cache 或 工作 集 容量 对 缺失 率 影响 如 何 ? 根据 3C 模型 ， 这 些 缺失 如 
何 分 类 ? 

[5] <5.1, 5.8 > 当 块 大 小 分 别 为 16 字 节 、64 字 节 和 128 字 节 时 ， 重 新 计算 缺失 率 。 该 负载 
所 采用 的 是 哪 种 局 部 性 ? 

[10 ] < 5.13 >“ 预 取 ” 技 术 : 当 一 个 cache 抉 被 访问 时 ， 利 用 可 预测 的 地 址 模式 推测 地 取出 
其 他 的 cache 块 。 预 取 的 一 个 例子 是 流 缓冲 区 ， 当 一 个 特定 的 cache 块 被 取出 时 ， 将 与 其 相 邻 
的 cache 块 也 依次 预 取 到 一 个 独立 的 缓冲 区 中 。 如 果 所 需 的 数据 在 预 取 缓冲 区 中 ， 则 看 成 是 
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S.9 


S.9.1 
S.9.2 
5.9.3 
5.10 


5.10.1 


S.10.2 


S.10.3 


5.10.4 


5.10.5 


S.10.6 


S.10.7 
5S.11 


5.11.1 


一 次 命中 ， 并 将 数据 移 人 cache， 同 时 预 取 下 一 个 cache 块 。 假 设 一 个 流 缓冲 区 有 两 项 ， 并 且 
假设 cache 延迟 满足 在 先前 cache 块 的 计算 完成 之 前 可 以 加 载 下 一 个 cache 块 。 那 么 对 于 上 面 
的 地 址 流 ， 缺 失 率 是 多 少 ? 

cache 块 大 小 (B) 会 影响 缺失 率 和 缺失 延迟 。 假 设 一 台 机 器 的 基本 CPI 为 1， 每 条 指令 平均 访问 
次 数 (指令 和 数据 ) 为 135， 对 于 下 列 不 同 容量 和 不 同 缺失 率 ， 请 找 出 使 得 总 缺失 延迟 最 小 
的 块 大 小 。 





[84% | 16:3% | 32:2% | 64:15% | 128:1% 








[10] < 5.3> 缺失 延迟 为 20 x B 个 周期 时 ,最 佳 的 块 大 小 是 多 少 ? 
[10 ] < 5.3> 缺失 延迟 为 24 + B 个 周期 时 ， 最 佳 的 块 大 小 是 多 少 ? 
[10 ] < 5.3 > 缺失 延迟 为 恒定 值 时 ， 最 佳 的 块 大 小 是 多 少 ? 
本 题 将 研究 不 同 容量 对 整体 性 能 的 影响 。 通 常 来 说 ,cache 访问 时 间 与 cache 容量 成 比例 。 假 设 
访问 主 存 需要 70ns， 并 且 在 所 有 指令 中 有 36% 的 指令 需要 访问 数据 存储 器 。 下 表 是 Pl 和 2 
两 个 处 理 器 各 自 的 LI cache 的 数据 。 

a L1 cache 容 量 Wr 


Pp1 2KiB | 8.0% | 0.66ns ] 


mm 4KiB 6.0% | 0.90ns | 














[5 ] <5.4> 假设 LI cache 的 命中 时 间 决 定 了 Pl 和 P2 的 周期 时 间 ， 那 么 它们 的 时 钟 频率 各 为 
多 少 ? 

[10] <5.4 >P1 和 了 2 的 平均 存储 器 访问 时 间 (Average Memory Access Time, AMAT)( 周 期 数 ) 
分 别 是 多 少 ? 

[5] <5.4> 假 定 没 有 任何 存储 器 阻塞 时 基本 CPI 为 1.0， 那 么 P1 和 P2 的 总 CPI 各 为 多 少 ? 
哪个 处 理 器 更 快 ? (我 们 说 基本 CPI 为 1.0， 意 味 着 指令 在 一 个 周期 内 完成 ， 除 非 指 令 访问 或 
数据 访问 产生 了 cache 缺失 。) 

对 下 面 三 个 问题 ， 我 们 考虑 在 Pl 中 增加 一 个 L2 cache， 以 弥补 L1 cache 的 容量 限制 。 解 决 问题 
时 ， 仍 使 用 上 表 中 L1 cache 的 容量 和 命中 时 间 。 显 示 的 L2 缺失 率 是 其 局 部 缺失 率 。 














[1MiB 95% | 5.62ns | 








[10] <5.4> 增 加 L2 cache 后 , Pl1 的 AMAT 是 多 少 ? 增加 L2 cache 后 ， AMAT 更 好 还 是 
更 差 ? 

[5 ] < 5.4> 假定 没 有 任何 存储 器 阻塞 时 基本 CPI 为 1.0， 增 加 一 个 L2 cache 后 ,P1 的 总 CPI 是 
多 少 ? 

[10 ] <5.4> 要 使 有 L2 cache 的 Pl 比 没有 L2 cache 的 P1 更 快 ， 那 么 L2 的 缺失 率 需要 为 多 少 ? 
[15] <5.4> 要 使 有 L2 cache 的 Pl 比 没有 L2 的 P2 快 ,那么 L2 的 缺失 率 需要 为 多 少 ? 

本 题 考 察 测试 不 同 cache 设计 的 影响 ， 特 别 是 比较 5.4 节 的 关联 cache 和 直接 映射 cache。 对 于 
这 些 练习 题 ， 参 照 下 面 的 字 地 址 序列 : 


0x03, Oxb4, Ox2b, Ox02, Oxbe, Ox58, Oxbf, Ox0e, Ox1f, 
Oxb5, Oxbf, Oxba, Ox2e,. Oxce 


[10] < 5.4> 请 概述 一 个 总 容量 为 48 个 字 , 块 大 小 为 2 个 字 , 采用 三 路 组 相 联 的 cache 的 结 
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S.11.2 


S.11.3 


5.11,4 


Sll:5 


5.11.6 


S.11.7 
5.11.8 
$5.12 


5.12.1 


构 。 你 的 概述 应 类 似 于 图 $-18， 但 请 明确 指出 标记 和 数据 字段 的 宽度 。 

[10] < 5.4> 跟 踪 练习 题 5.11.1 中 cache 的 行为 。 假 设 采用 真正 的 LRU 替换 策略 。 对 于 每 次 
引用 ， 请 指出 : 

e 二 进 制 字 地 址 。 

e 标记 。 

索引 。 

。 偏 移 

该 引用 是 命中 还 是 缺失 

® 每 个 引用 被 处 理 后 ，cache 每 一 路 中 的 标记 各 是 什么 

[5] <5.4> 概 述 一 个 总 容量 为 8 个 字 , 块 大 小 为 1 个 字 ， 采 用 全 相 联 的 cache 的 结构 。 你 的 
概述 应 类 似 于 图 5-18， 但 是 请 明确 指出 标记 和 数据 字段 的 宽度 。 

[10 ] < 5.4> 跟踪 练习 题 5.11.3 中 cache 的 行为 。 假 设 采用 真正 的 LRU 替换 策略 。 对 于 每 次 引 
用 ， 请 指出 : 

。 二 进 制 字 地 址 

se 标记。 

。 索引 。 

。 偏 移 。 

。 该 引用 是 命中 还 是 缺失 

e 每 个 引用 被 处 理 后 ，cache 中 的 内 容 是 什么 。 

[5] < 5.4> 概述 总 容量 为 8 个 字 . 块 大 小 为 2 个 字 . 采用 全 相 联 的 cache 的 结构 。 你 的 概述 
应 类 似 于 图 $-18， 但 是 请 明确 指出 标记 和 数据 字段 的 宽度 

[10 ] < 5.4> 跟 踪 练 习题 5.11.5 中 cache 的 行为 。 假 设 采用 LRU 蔡 换 策略 。 对 于 每 次 引用 ， 
请 指出 : 

。 二 进 制 字 地 址 。 

。 标记 ， 

。 索引 。 

。 偏 移 。 

e 该 引用 是 命中 还 是 缺失 

。 每 个 引用 被 处 理 后 ，cache 中 的 内 容 是 什么 。 

[10] < 5.4 > 使 用 最 近 使 用 原则 MRU (Most Recently Used) 替换 策略 重 做 练习 题 5.11.6 

[15 ] < 5.4 > 使 用 优化 替换 策略 (例如 缺失 率 最 低 的 策略 ) 重 做 练习 题 5.11.6。 

多 级 cache 是 一 项 重要 技术 ， 克 服 第 一 级 cache 提供 的 空间 有 限 的 不 足 ， 同 时 仍然 维持 了 速度 。 
假设 处 理 器 参数 如 下 : 








15 |2GHz| 1oons [| 7% | 12 个 周期 | 3.5% | 28 个 周期 1.5% 


注 :第 一 级 cache 缺失 率 是 对 于 每 条 指 邻 的。 假设 L1 cache 的 总 缺失 数量 (包含 指令 和 数据 ) 为 总 
篆 令 数 的 7%。 











[10 ] < 5.4> 计算 表 中 处 理 器 的 CPI : 中 只 有 第 一 级 cache ; @ 一 个 直接 映射 的 第 二 级 cache ; 
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S.12.2 


S.12.3 


Ea 


5.13.1 
S.13.2 
5.13.3 
5.13.4 


5.14 


5.14.1 


5.14.2 


S.14.3 


S.1S 


国 一 个 八路 组 相 联 的 第 二 级 cache。 如 果 主 存 访问 时 间 加 倍 ， 这 些 数 据 如 何 变化 (CP1 的 绝对 
变化 量 以 及 百分比 ) ? 注意 L2 cache 能 够 隐藏 慢 内 存 影响 所 能 达到 的 程度 。 
[10] <5.4> 拥 有 比 两 级 更 多 的 cache 层次 可 能 吗 ? 上 述 处 理 器 有 一 个 直接 映射 的 第 二 级 
cache， 设 计 者 希望 增加 一 个 三 级 cache， 其 访问 时 间 为 50 个 周期 ， 并 且 人 缺失 率 为 13%。 这 种 
设计 能 提供 更 好 的 性 能 吗 ? 通常 来 说 ,增加 一 个 三 级 cache 的 优点 和 缺点 分 别 是 什么 ? 
[20] < 5.4> 在 以 前 的 处 理 器 中 、 如 Intel Pentium 或 Alpha 21264， 第 二 级 cache 在 主 处 理 器 
和 第 一 级 cache 的 外 部 (放置 在 不 同 的 芯片 上 )。 这 使 得 第 二 级 cache 很 大 ， 访 问 延 迟 也 高 得 
多 ， 并 且 由 于 第 二 级 cache 以 较 低 的 频率 运行 ， 因 此 带宽 通常 也 较 低 。 假 设 一 个 512KiB 的 片 
外 第 二 级 cache 的 缺失 率 为 4%。 如 果 cache 每 增加 512KiB 容量 可 以 使 缺失 率 降低 0.7%， 并 
且 cache 总 的 访问 时 间 为 50 个 周期 ， 那 么 cache 容量 为 多 大 时 才能 匹配 表 中 直接 映射 的 第 二 
级 cache 的 性 能 ? 
平均 失效 间隔 时 间 ( Mean Time Between Failure，MTBF)、 平 均 修 复 时 间 (Mean Time To 
Replacement，MTTR) 和 平均 无 故障 时 间 ( Mean Time To Failure，MTTF) 对 于 评估 存储 资源 
的 可 靠 性 和 可 用 性 而 言 是 非常 有 用 的 指标 。 回 答 下 面 的 问题 并 探索 上 述 概念 设备 参数 如 下 : 
Mo ME 


| 


3 年 1 天 


[5] <5.5 > 计算 该 设备 的 MTBF 

[5 ] <5.5 > 计算 该 设备 的 可 用 性 。 

[5] <5.5 > 车 MTTR 接近 于 0， 则 可 用 性 如 何 变化 ”这 是 .种 现实 的 情况 吗 吗 ? 

[5] <5.5> 车 MTTR 变 得 非常 高 ， 例 如 一 台 设 备 非常 难 维修 ， 则 可 用 性 如 何 变化 ? 这 是 否 意 
味 着 该 设备 可 用 性 很 低 ? 

本 题 讨论 纠 1 检 2 (SEC/DED) 汉 明 码 

[5] <5.5> 使 用 SEC/DED 保护 一 个 128 位 的 字 ， 最 少 需要 多 少 奇偶 位 ? 

[5] <5.5>5.5 节 指出 ,现代 服务 器 存储 器 模块 (DIMM) 采用 SEC/DEC ECC 来 进行 保护 ， 
每 64 位 有 8 位 奇偶 位 。 计 算 该 编码 的 开销 /性 能 比 ， 并 与 练习 题 5.14.1 进行 比较 。 此 处 开销 
是 指 所 需 的 相对 奇偶 位 ， 性 能 是 指 相对 的 能 够 纠正 的 错误 数量 。 哪 种 编码 较 好 ? 

[5] <5.5> 考 虑 一 个 采用 4 位 奇偶 位 来 保护 8 位 字 的 SEC。 如 果 读 出 值 为 0x375， 是 否 有 
错 ? 如 果 有 错 ， 纠 正 错误 。 

对 于 一 个 高 性 能 系统 ， 如 数据 库 的 B 树 索引 ， 页 的 大 小 主要 由 数据 大 小 和 磁盘 性 能 决定 。 假 设 
一 个 B 树 索引 页 平均 使 用 70% 的 固定 大 小 的 项 。 一 个 页 面 的 效用 就 是 B 树 的 深度 ， 以 log2 
(项 数 ) 来 计算 。 下 表 中 ， 每 项 16 个 字 节 , 一 个 已 使 用 10 年 的 磁盘 延迟 为 10ms、 传 输 率 为 
10MB/s， 最 优 的 页 大 小 是 16K。 












































2 6.49 或 log, | 2048/16x0.7) | 102 0.64 
4 749 | 104 072 
8 8.49 10.8 079 
16 RE 116 0.82 
32 | 10.49 13.2 079 
64 11.49 | 16.4 0.70 
128 12.49 | 228 0.55 
256 13.49 35.6 | 038 
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5.15.1 
5.15.2 
5.15.3 


[10] < 5.7> 如 果 项 变 为 128 字 节 ， 最 佳 的 页 大 小 是 多 少 ? 

[10] <5.7 > 根据 练 习题 5.15.1， 如 果 页 处 于 半 满 状态 ， 最 佳 的 页 大 小 是 多 少 ? 

[20] <5.7> 根 据 练习 题 5.15.2， 如 果 使 用 的 是 最 新 的 磁盘 ， 延 迟 3ms、 传 输 率 为 100MB/s， 
最 佳 的 页 大 小 是 多 少 ? 请 解释 为 什么 未 来 的 服务 器 可 能 用 较 大 的 页 ? 

在 DRAM 中 保存 “频繁 使 用 ”的 页 ( 即 “ 热 ”页 ) 可 以 节省 磁盘 访问 ， 但 是 对 于 一 个 系统 ， 我 们 
如 何 确定 “频繁 使 用 ”的 精确 含义 ?数据 工程 师 利 用 DRAM 和 磁盘 访问 之 间 的 开销 比率 
对 热 页 的 重用 时 间 阅 值 进行 量化 。 磁 盘 访 问 的 开销 是 $ Disk/accesses_per_sec， 而 将 页 保存 在 
DRAM 中 的 开销 是 $ DRAM MiB/page_size。 一些 时 间 节 点 上 典型 的 DRAM 和 磁盘 开销 ， 以 
及 典型 的 数据 库 页 大 小 如 下 表 所 示 : 


年 从 DRAM 开 错 磁盘 开销 磁盘 访问 率 
{ SMiB Sidisk 【访问 / 秘 } 


1987 5000 和 15 000 
1997 15 8 2000 





























L10] <5.7> 若 保持 使 用 相同 的 页 大 小 (从 而 避免 软件 重 写 )， 那 么 其 他 哪些 因素 会 有 所 改变 ? 
以 当前 的 技术 和 成 本 发 展 的 趋势 ， 探 讨 其 可 能 性 。 
如 5.7 节 所 述 ， 虚 拟 存储 器 使 用 一 个 页 表 来 追踪 虚拟 地 址 到 物理 地 址 之 间 的 映射 。 本 题 说 明 当 
地 址 被 访问 时 ， 页 表 必须 如 何 更 新 。 下 面 的 数据 构成 了 一 个 系统 上 可 见 的 虚拟 字 节 地 址 流 。 
假设 4KiB 的 页 ， 一 个 具有 4 项 的 全 相 联 TLB ， 采 用 真正 的 LRU 替换 算法 。 如 果 必 须 从 磁盘 
中 取 回 页 ， 那 么 增加 下 一 个 最 大 的 页 码 ， 










































































| 二 六 进 制 |4669 2227 [13916 [34587 |48870 [12608 |49225 
| 十进制 ”| 0x123d 0x08b3 0x365c [0xB715 [Oxbee Dx3140 | 0xc049 
TLB: 
Oxb 12 4 | 
i Ox7 4 F 强 
1 0x3 6 3 
0 Ox4 9 Fa | 
页 表 : 
家 引 
| D -3 
| 下 0 
和] 0 
EF | 6 
| 4 1 9 a 
| 5 至 11 
6 0 磁盘 
你 生 4 
8 0 磁盘 
9 0 磁盘 
a 1 3 
b 要 12 
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5.16.1 


5.16.2 
5.16.3 
5.16.4 


5.16.5 


5.17 


S.17.1 
5.17.2 


5.17.3 


[10] <5.7> 对 于 以 上 每 次 访问 ， 请 列 出 : 

e 访问 在 TLB 中 命中 还 是 缺失 。 

e。 访问 在 页 表 中 命中 还 是 缺失 。 

e 访问 是 否 产生 页 故障 。 

e TLB 更 新 后 的 状态 。 

[15 ] < 5.7> 重复 练习 题 5.16.1， 但 这 次 使 用 16KiB 的 页 来 代替 4KiB 的 页 。 使 用 更 大 的 页 有 
哪些 好 处 ”又 有 哪些 缺点 ? 

[15] < 5.7> 重复 练习 题 5.16.1， 但 这 次 使 用 4KiB 的 页 以 及 一 个 两 路 组 相 联 TLB。 

[15 ] < 5.7 > 重复 练习 题 5.16.1， 但 这 次 使 用 4KiB 的 页 以 及 一 个 直接 映射 TLB。 

[10 ] < 5.4, 5.7 > 讨论 为 什么 CPU 必须 有 TLB 以 保持 高 性 能 。 如 果 没 有 TLB， 如 何 处 理 虚拟 存 
储 器 访问 。 

有 一 些 参数 会 对 页 表 整 个 大 小 产生 影响 。 下 面 列 出 的 是 一 些 关键 的 页 表 参 数 。 


| 








[5] < 5.7 > 根据 以 上 参数 ， 计 算 一 个 运行 5 个 进程 的 系统 最 大 可 能 页 表 的 大 小 。 

[10] < 5.7 > 根据 以 上 参数 ， 计 算 一 个 系统 总 的 页 表 大 小 ， 该 系统 运行 5 个 应 用 ， 每 个 使 用 一 
半 的 虚拟 内 存 ， 假 定 使 用 一 个 两 级 页 表 ， 第 一 级 有 256 项 。 假 设 主页 表 中 每 项 是 6 字 节 。 计 
算 该 页 表 所 需 的 最 小 和 最 大 内 存 容量 。 

[10] <5.7> 一 位 cache 设计 人 员 和 希望 增加 一 个 4KiB 的 虚拟 索引 、 物 理 标记 的 cache 的 容量 。 
对 于 以 上 页 大 小 ， 假 设 每 块 有 两 个 64 位 的 字 ， 那 么 是 否 可 能 构建 一 个 16KiB 的 直接 映射 
cache ? 设计 者 如 何 增加 cache 的 数据 大 小 ? 

本 题 将 考察 页 表 的 空间 / 时 间 优化 。 下 表 列 出 了 一 个 虚拟 存储 系统 的 参数 。 











[ 43 | 16G8 I 4KiB 











[10] < 5.7 > 对 于 一 个 单 级 页 表 ， 需 要 多 少 页 表 项 (PTE)? 需要 多 少 物理 存储 空间 来 存放 页 表 ? 
[10] < 5.7> 通过 仅 在 物理 存储 器 中 保存 活跃 PTE， 使 用 多 级 页 表 可 以 减少 页 表 消 耗 的 物理 存 
储 空间 。 如 果 不 限制 段 表 (高 一 级 页 表 ) 的 大 小 ,那么 需要 多 少 级 页 表 ? 若 TLB 缺失 ， 那 么 
地 址 转换 需要 多 少 次 存储 访问 ? 

[10] < 5.7> 假设 段 限 制 为 4KiB 页 大 小 (从 而 可 以 分 页 )。4 字 节 对 于 所 有 的 页 表 项 是 否 足够 
大 (包括 在 段 表 中 的 项 ) ? 

[10] < 5.7 > 如 果 将 段 限制 为 4KiB 页 大 小 ， 那 么 需要 多 少 级 页 表 ? 

[15] <5.7> 反 向 页 表 可 以 用 来 进一步 优化 空间 和 时 间 。 存 放 页 表 需 要 多 少 PTE ? 假设 实现 
一 个 哈 希 表 ， 当 TLB 缺失 时 ， 在 正常 情况 下 和 最 差 情况 下 的 存储 器 访问 次 数 分 别 是 多 少 ? 

下 表 给 出 了 一 个 具有 四 项 内 容 的 TLB: 
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5.19.1 
5.19.2 


S.19.3 
5.20 


S.20.1 
5.20.2 


$5.20.3 


5.20.4 
$5.20.5 


S.20.6 


5.21 


S.21.1 


S.21.2 


5.24 


5.24.1 


[5] < 5.7> 在 什么 情况 下 第 三 项 的 有 效 位 被 置 为 0? 

[5] <5.7> 当 一 条 指令 写 虚拟 地 址 页 30 时 ,会 发 生 什 么 ? 什么 时 候 软件 管理 的 TLB 比 硬件 
管理 的 TLB 速度 快 ? 

[5] <5.7> 当 一 条 指令 写 虚拟 地 址 页 200 时 ， 会 发 生 什 么 ? 

本 题 将 考察 替换 策略 如 何 影响 缺失 率 。 假 设 有 一 个 两 路 组 相 联 cache， 有 4 个 块 ， 每 块 1 个 字 
考虑 下 面 的 字 地 址 序列 : 0, 1, 2, 3, 4, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7, 0. 
[5 ] < 5.4, 5.8 > 假定 使 用 LRU 替换 策略 ， 哪 些 访问 命中 ? 

[5 ] < 5.4, 5.8 > 假定 使 用 MRU 替换 策略 ， 哪 些 访问 命中 ? 

[5] < 5.4, 5.8 > 通过 掷 硬币 来 模拟 随机 替换 策略 。 例 如 ,“ 正 面 ”表示 逐 出 组 中 第 一 块 ,“ 反 
面 ”表示 逐 出 组 中 第 二 块 。 那 么 这 组 地 址 序列 中 有 多 少 次 命中 ? 

[ 10 ] < 5.4, 5.8 > 描述 该 序列 的 一 种 最 优 蔡 换 策略 ， 用 该 策略 哪些 访问 命中 ? 

[10] <5.4, 5.8> 说 明 为 什么 实现 对 所 有 地 址 序列 来 说 都 是 最 优 的 cache 替换 策略 是 十 分 困 
难 的 ? 

[10] < 5.4, 5.8 > 假设 在 主 存 引用 时 ， 你 都 可 以 决定 被 请 求 的 地 址 是 否 要 缓存 ( cache)， 那 么 
这 对 缺失 率 有 什么 影响 ? 

虚拟 机 广泛 使 用 最 大 的 障碍 之 一 是 运行 虚拟 机 所 产生 的 性 能 开销 。 下 表 列 出 了 不 同 的 性 能 参数 
和 应 用 程序 行为 。 












lg | 
[15 120 ”| 15 个 时 钟 周期 | 175 个 时 钟 周 期 | 30 ”| 1100 个 时 钟 周期 | 








[10] <5.6> 计 算 上 述 系 统 的 CPI， 假 设 没 有 1/0 访问 。 如 果 VMM 开销 翻 倍 ， 那 么 CP1 为 多 
少 ? 如 果 减 半 呢 ”如 果 一 个 虚拟 机 软件 公司 希望 将 性 能 损失 限制 在 10%， 那 么 陷 人 到 VMM 
最 长 的 开销 可 能 是 多 少 ? 

[15] <5.6> IO 访问 对 系统 整体 性 能 有 着 很 大 的 影响 。 计 算 一 台 机 器 的 CPI， 使 用 上 面 的 
性 能 特征 值 ， 假 设 是非 虚 拟 化 系统 。 如 果 使 用 虚拟 化 系统 ，CPI 又 是 多 少 ?9 如果 系 统 中 LO 访 
问 减 半 ， 那 么 这 些 CPI 如 何 变化 ? 

[15 ] < 5.6, 5.7 > 比较 虚拟 存储 器 和 虚拟 机 的 概念 。 它 们 各 自 的 目标 是 什么 ?各自 的 利弊 是 什 
么 ? 列 出 一 些 需要 虚拟 存储 器 的 情况 ， 以 及 一 些 需要 虚拟 机 的 情况 。 

[10] <5.6>5.6 节 讨论 的 虚拟 化 ,假设 了 虚拟 化 的 系统 和 底层 硬件 运行 相同 的 ISA。 然 而 ， 
虚拟 化 的 一 种 可 能 的 用 途 就 是 仿真 非 本 地 的 ISA。 例 如 ，QEMU 可 以 仿真 多 种 I SA， 如 
MIPS 、SPARC 以 及 PowerPC。 与 这 种 虚拟 化 相关 的 难点 是 什么 ?被 仿真 的 系统 是 否 可 能 比 
在 本 地 ISA 上 运行 得 更 快 ? 

本 题 将 考察 处 理 器 中 带 有 写 缓冲 区 的 控制 器 中 的 控制 单元 。 使 用 图 5-39 的 有 限 状 态 机 作为 设计 
有 限 状态 机 的 起 点 。 假 设 cache 控制 器 适用 于 5.9 节 图 5-39 所 描述 的 简单 直接 映射 cache， 但 
要 增加 一 个 写 缓冲 区 ， 容 量 为 1 个 块 

写 缓冲 区 的 目的 是 用 来 临时 存储 ， 因 此 在 发 生 脏 块 缺失 时 ， 处 理 器 就 不 需要 等 待 两 次 存储 器 访问 - 
比 起 在 读 新 块 之 前 就 写 回 脏 块 ， 写 缓冲 区 缓存 了 脏 块 并 立即 开始 读 新 块 。 从 而 当 处 理 器 工作 
时 ， 脏 块 可 以 随后 被 写 人 主 存 。 

[10 ] < 5.8, 5.9> 如 果 处 理 器 发 出 一 个 请 求 并 在 cache 中 命中 ， 同 时 一 个 块 正 在 从 写 缓冲 区 写 回 
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5.24.2 


S.24.3 
S.25 


5.25.1 


5.25.2 
5.25.3 


S.25.4 
5.25.5 
5,25.6 

5.26 


5.26.1 
5.26.2 


5.26.3 


S.26.4 


到 主 存 ， 此 时 会 发 生 什 么 ? 

[L10 ] < 5.8, 5.9 > 如 果 处 理 器 发 出 一 个 请 求 并 在 cache 中 缺失 ， 同 时 一 个 块 正 从 写 缓冲 区 写 回 到 
主 存 ， 此 时 会 发 生 什 么 ? 

[30] < 5.8, 5.9> 设计 一 个 能 够 使 用 写 缓冲 区 的 有 限 状 态 机 。 

cache 一 致 性 关注 给 定 缓存 块 上 的 多 个 处 理 器 。 下 面 的 数据 显示 了 两 个 处 理 器 以 及 它们 对 一 个 
cache 块 X 中 两 个 不 同 字 的 读 / 写 操作 (初始 X[0] =X[1] =0)。 


[XE0] ++; XI = 3; XI0] = 5; Xf1] +=2; | 








[15] < 5.10> 列 出 给 定 cache 块 在 正确 的 cache 一 致 性 协议 实现 下 的 可 能 的 值 。 如 果 协 议 不 保 
证 cache 一 致 性 ， 列 出 至 少 一 个 可 能 的 cache 块 值 

[15 ] < 5.10 > 对 于 监听 协议 ， 列 出 每 个 处 理 器 /cache 完成 上 面 的 读 / 写 操作 的 有 效 操作 顺序 。 
[10] < 5.10 > 在 最 好 和 最 差 情况 下 ， 执 行 以 上 列 出 的 读 / 写 指令 所 需 的 cache 缺失 次 数 分 别 是 
多 少 ? 

存储 器 一 致 性 考虑 的 是 多 个 数据 项 。 下 面 的 数据 给 出 了 两 个 处 理 器 以 及 它们 在 不 同 cache 块 上 
的 读 / 写 操作 (A 和 B 的 初始 值 为 0) 


Se 


| A = 1; B=- 2; At-2; B4+; C=B:0-A; ] 











[15] <5.10> 对 于 所 有 确保 5.10 节 两 个 一 致 性 假设 的 实现 ， 列 出 C 和 D 可 能 的 值 。 

[15 ] < 5.10 > 如 果 假 设 不 成 立 ， 列 出 至 少 一 对 C 和 D 可 能 的 值 

[15 ] < 5.3, 5.10> 对 于 不 同 的 写 策略 和 写 分 配 策略 的 组 合 ， 哪 些 组 合 可 以 简化 协议 的 实现 ? 
片上 多 处 理 器 (Chip Multiprocessor,CMP) 在 单个 芯片 上 有 多 个 核 以 及 自己 的 cache。CMP 片 
上 L2 cache 设计 时 要 进行 有 趣 的 权衡 。 下 表 列 出 了 两 个 基准 测试 程序 在 私有 L2 cache 和 共享 
L2 cache 两 种 情况 下 的 缺失 率 和 命中 延迟 。 假 设 LI cache 缺失 率 为 3%， 并 且 访 问 时 间 为 1 
个 周期 。 


SN ET 














基准 测试 程序 A 的 缺失 率 ”| 。。 10% 4% 
基准 测试 程序 B 的 缺失 率 | 2% | 1% | 
假设 命中 延迟 如 下 : 
[ 5 I 20 180 | 








[15 ] < 5.13 > 对 于 每 个 基准 测试 程序 ， 哪 种 cache 设计 更 好 ? 请 用 数据 来 支持 你 的 结论 。 
[15 ] < 5.13 > 随 着 CMP 核 数 的 增加 ， 片 下 带宽 成 为 瓶颈 。 这 些 瓶 颈 如 何 影响 私有 和 共享 的 
cache 系统 ? 影响 有 何不 同 ? 如 果 第 一 个 片 下 链接 延迟 翻 倍 ， 请 选择 最 佳 的 设计 。 

[10] < 5.13 > 讨论 共享 L2 cache 和 私有 L2 cache 对 于 单线 程 、 多 线程 以 及 多 道 程序 负载 的 优 
缺点 。 如 有 片上 L3 cache， 请 重新 考虑 这 些 问题 。 

[10] <5.13> 非 阻塞 L2 cache 在 共享 L2 cache 的 CMP 上 、 还 是 在 私有 L2 cache 的 CMP 上 
提供 的 性 能 改进 更 多 ? 为 什么 ? 
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5.26.5 


5.26.6 
5.27 


S.27.1 


5.27.2 
5.27.3 


5.28 





S.29.1 
S.29.2 


[10] <5.13> 假 设 新 一 代 的 处 理 器 核 数 每 18 个 月 翻 倍 。 为 了 保证 每 核 性 能 处 于 相同 水 平 ， 那 
么 一 个 三 年 后 发 布 的 处 理 器 需要 多 少 片 下 存储 器 带宽 ? 

[15 ] < 5.13 > 考虑 整个 存储 器 层次 结构 ， 哪 种 优化 可 以 改进 同时 发 生 的 缺失 数量 7 

本 题 给 出 了 网 络 服务 器 日 志 的 定义 ， 并 考察 了 代码 优化 ， 以 改进 日 志 处 理 速度 。 日 志 的 数据 结 
构 定义 如 下 : 


struct entry { 

int SrcIP; // remote IP address 

char URL[128]; // request URL (e.g., “GET index.html1”) 
long long refTime; // reference time 

int status; // connection status 

char browser[64]; // client browser name 

| Tog [NUM_ENTRIES]; 


假定 日 志 的 处 理 函 数 如 下 : 
topKk_sourcelp (int hour); 


该 函数 决定 了 给 定时 间 内 最 频繁 观察 到 的 源 IP。 

[5 ] <5.15 > 对 于 给 定 的 日 志 处 理 函 数 ， 一 个 日 志 项 中 的 哪些 字段 将 被 访问 ? 假设 cache 块 为 
64 字 节 ， 没 有 预 取 ， 那 么 给 定 的 函数 平均 每 项 会 引发 多 少 次 cache 缺失 ? 

[10] < 5.15 > 如 何 重新 组 织 数据 结构 以 改善 cache 的 效用 和 访问 局 部 性 ? 

[10] < 5.15 > 请 举例 说 明 另 一 种 采用 不 同 数 据 结构 的 日 志 处 理 函 数 。 如 果 两 个 函数 都 很 重要 ， 
如 何 重 写 程序 以 改进 整体 性 能 ”用 代码 片段 和 数据 补充 讨论 。 

对 于 下 面 的 问题 ， 下 表 所 示 的 基准 测试 程序 对 使 用 的 数据 出 自 “SPEC CPU 2000 基准 测试 程序 
的 cache 性 能 " (http://www.cs.wisc.edu/multifacet/misc/spec2000cache-data/)， 如 下 所 示 。 


a. | Mesa/gcc 





b. | mcf/swim 


[10] < 5.15 > 对 于 不 同 相 联 度 的 64KiB 数据 cache， 每 个 基准 测试 程序 每 种 缺失 类 型 (强制 、 
容量 和 冲突 缺失 ) 的 缺失 率 分 别 是 多 少 ? 

[ 10 ] < 5.15 > 为 两 个 基准 测试 程序 共享 的 64KiB L1 数据 cache 选择 组 相 联 度 。 若 L1 cache 是 
直接 映射 的 ， 那 么 为 1MiB 的 L2 cache 选择 组 相 联 度 。 

[20] < 5.15 > 请 列举 一 个 缺失 率 表 的 例子 ， 其 中 较 高 的 相 联 度 实际 上 增加 了 缺失 率 。 构 建 
cache 配置 以 及 访问 流 来 给 出 证 明 。 

为 了 支持 多 虚拟 机 ， 需 要 两 级 存储 器 虚拟 化 。 每 个 虚拟 机 仍 控制 从 虚拟 地 址 (Virtual Address， 
VA) 到 物理 地 址 (Physical Address，PA) 之 间 的 映射 ， 同 时 管理 程序 将 每 个 虚拟 机 的 PA 映 
射 到 实际 的 机 器 地 址 (Machine Address，MA)。 为 了 加 速 映 射 过 程 ， 一 种 被 称 为 “影子 分 页 ” 
的 软件 方法 在 管理 程序 中 复制 了 每 个 虚拟 机 的 页 表 ， 并 且 侦 听从 虚拟 地 址 到 物理 地 址 的 映射 
变化 ， 以 保证 两 个 副本 的 一 致 性 。 为 了 消除 影子 页 表 的 复杂 性 ,一 种 被 称 为 嵌 套 页 表 (Nested 
Page Table，NPT) 的 硬件 方法 可 以 明确 地 支持 两 种 页 表 (VA=>PA 和 PA=>MA)， 并 且 完全 依 
靠 硬件 来 查找 这 些 表 。 

考虑 下 面 的 操作 序列 : 创建 进程 ;TLB 缺失 ; 缺 页 ; 上 下 文 切换 。 

[10] < 5.6, 5.7 > 给 定 的 操作 序列 对 影子 页 表 和 嵌 套 页 表 分 别 会 产生 什么 影响 ? 

[ 10 ] < 5.6, 5.7> 假设 一 个 基于 x86 架构 的 四 级 页 表 同时 存在 于 客户 页 表 和 嵌 套 页 表 中 ， 那 么 在 
处 理 本 地 页 表 TLB 缺失 和 和 做 套 页 表 TLB 缺失 时 ， 分 别 需要 多 少 次 存储 器 访问 ? 
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S.29.3 


S.29.4 


S.29.5 
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[15 ] < 5.6, 5.7 >TLB 缺失 率 .TLB 缺失 延迟 、 缺 页 率 、 缺 页 处 理 延迟 中 ， 对 影子 页 表 来 说 ， 哪 
些 指 标 更 重要 ? 对 于 幅 套 页 表 来 说 ， 哪 些 指标 更 重要 ? 
下 表 是 影子 分 页 系统 的 参数 。 























200 个 时 钟 周期 | 0.001 








30 000 个 时 钟 周期 


[10] < 5.6 > 一 个 基准 测试 程序 的 本 地 执行 CPI 为 !， 如 果 使 用 影子 页 表 ,CPI 是 多 少 ? 如 果 使 
用 嵌 套 页 表 (假设 只 有 页 表 虚 拟 化 开销 )，CPI 又 是 多 少 ? 

[10] <5.6> 使 用 什么 技术 可 以 减少 影子 页 表 所 带 来 的 开销 ? 
] < 5.6> 使 用 什么 技术 可 以 减少 嵌 套 页 表 所 带 来 的 开销 ? 


[10 
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并 行 处 理 器 : 从 客户 端 到 云 ? 








多 处 理 器 或 集群 结构 


6.1 引言 

计算 机 架构 师 一 直 在 寻求 计算 机 设计 的 “黄金 之 城 ”( El Dorado) : 
只 需 将 现 有 的 多 个 小 计算 机 简单 地 连接 在 一 起 就 能 构成 功能 强大 的 计 
算 机 。 这 种 美好 的 想法 就 是 多 处 理 器 (multiprocessor) 产生 的 根源 。 理 
想 情况 下 ， 用 户 可 以 按照 其 能 力 订 购 足 够 多 的 处 理 器 ， 从 而 获 相应 的 
性 能 。 因 此 ， 多 处 理 器 软件 必须 设计 为 能 在 不 同 数量 的 处 理 器 上 工作 。 
如 第 1 章 所 述 ， 无 论 是 数据 中 心 还 是 微 处 理 器 ， 功 耗 已 经 成 为 首要 问 
题 。 在 软件 可 以 有 效 地 使 用 每 个 处 理 器 的 情况 下 ， 用 很 多 小 而 高 效 的 
处 理 器 代替 大 而 低 效 的 处 理 器 ， 可 在 每 单位 焦耳 上 获得 更 高 的 性 能 。 
因此 ， 在 多 处 理 器 的 情况 下 ， 改 进 的 能 源 效率 提供 了 可 扩展 的 性 能 。 

由 于 多 处 理 器 软件 支持 可 变数 量 的 处 理 器 ， 因 此 一 些 设计 可 以 支 
持 在 硬件 损坏 的 情况 下 进行 操作 ; 也 就 是 说 ， 如 果 在 包含 个 处 理 器 
的 多 处 理 器 系统 中 有 一 个 处 理 器 失效 ， 这 些 系统 仍 可 以 使 用 wn-1 个 处 
理 器 继续 提供 服务 。 因 此 ， 多 处 理 器 也 提高 了 可 用 性 ( 见 第 5 章 )。 

对 于 独立 的 任务 而 言 ， 高 性 能 意味 着 更 高 的 吞吐 率 ， 称 作 任 务 
级 劝 狸 (task-level parallelism) 或 进程 级 并 行 ( process-level para- 
llelism)。 这 些 任 务 是 独立 的 单线 程 应 用 程序 ， 是 多 处 理 器 重要 且 普 
遍 的 应 用 。 这 种 方法 与 在 多 个 处 理 器 上 运行 单一 任务 是 相反 的 。 我 
们 使 用 术语 并 行 处 理 程序 ( parallel processing program) 来 表示 一 个 
同时 运行 在 多 个 处 理 器 上 的 程序 。 





我 奋力 挥 鲜 ， 用 尽 一 切 力 
量 ， 要么 获得 巨大 成 功 ， 
要 么 输 得 一 败 涂 地 。 我 喜 
欢 拼 尽 全 力 活 得 精彩 。 

Babe Ruth 【 差 国 的 玻 远 动 契 ) 


在 月 球 的 山脉 上 ， 沼 着 阴 
影 范 单 的 山谷 ， 前 进 ， 勇 
敢 地 前 进 一 一 如 果 你 在 寻 
找 理想 中 的 黄金 国 ! 

Edgar Allan Poe, El Dorado, 
slanza 4, 1849 


多 处 理 器 ; 至 少 含有 两 个 处 
理 器 的 计算 机 系统 ， 与 单 处 
理 器 相对 ， 现 在 单 处 理 器 越 
来 越 少 了 


并 行 处 理 程序 ; 同时 运行 在 
多 个 处 理 器 上 的 单一 程序 。 


任务 级 并 行 或 进程 级 并 行 : 
通过 同时 运行 独立 程序 的 
方法 来 利用 多 处 理 器 


名 ”本章 的 撰写 风格 与 前 几 章 有 较 大 的 不 同 ， 更 为 抽象 ， 信 息 量 也 更 大 ， 读 者 可 以 参考 各 类 相关 资料 来 更 好 


地 理解 本 章 内 容 。 一 一 译 者 注 
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些 问题 也 用 来 评价 新 型 并 行 计算 机 的 性 能 。 其 中 一 些 问题 今天 处 理 | 一 组 计算 机 ， 其 作用 等 同 
起 来 很 简单 ， 使 用 安装 在 许多 独立 服务 器 中 的 微 处 理 器 组 成 的 集群 | 于 单一 的 大 型 多 处理 器 
(cluster) 即 可 完成 ( 见 6.7 节 )。 此 外 ,集群 还 可 以 为 科学 计算 以 外 
的 有 类 似 要 求 的 应 用 程序 ， 如 搜索 引擎 、Web 服务 器 、 电 子 邮 件 服 | 多 导 全 外 理 器 在 站 和 
务 器 和 数据 库 服务 。 (“ 粮 ”) 的 微 处 理 器 。 目 前 

如 第 1 章 所 述 ， 多 处 理 器 已 成 为 研究 焦点 ， 因 为 功 耗 问题 意味 | 几乎 所 有 的 桌面 机 和 服务 
着 未 来 处 理 器 性 能 的 提高 将 主要 来 自 于 显 式 的 硬件 并 行 ， 而 不 是 更 | 号 帮 灯 用 多 要 处 理 器 。 
高 的 主 频 或 大 幅 改进 的 CPI。 如 第 1 章 那 样 ， 我 们 采用 多 核 微 处 理 器 
(multicore microprocessor) 而 不 是 多 处 理 器 微 处 理 器 ( multiprocessor 
microprocessor) 这 一 名 称 ， 以 避免 命名 上 的 完 长 。 因 此 ， 多 核 芯片 
内 的 处 理 器 通常 称 为 核 ( core)。 核 的 数量 预计 按 匠 演 姓 律 ( Moore's 
Law) 增长 。 这 些 多 核 处 理 器 通常 都 是 共享 内 存 处 理 器 ( Shared Memory Processor，SMP)， 
因为 它们 通常 共享 一 个 物理 地 址 空间 。6.5 节 将 更 深入 地 讨论 SMP。 

当今 的 技术 状况 意味 着 关心 性 能 的 编程 人 员 必 须 掌 握 并 行 编程 ， 因 为 串 行程 序 现在 意味 
着 慢 速 的 程序 。 

业界 面临 的 一 个 巨大 挑战 是 ， 如 何 构建 易于 正确 编写 并 行 处 理 程序 的 软 硬 件 系统 ， 使 得 
单 芯片 中 核 数 增加 时 ， 程 序 执行 在 性 能 和 功 耗 上 依旧 表现 良好 

微 处 理 器 设计 中 的 这 种 罕 然 转变 ， 导 致 很 多 设计 人 员 措 手 不 及 ， 因 而 产生 了 很 多 关于 术 
语 及 其 内 涵 的 混 消 。 图 6-1 试图 阐述 串 行 ( serial)、 并 行 (parallel)、 顺 序 ( sequential) 和 并 
发 (concurrent) 等 术语 之 间 的 差异 。 图 中 的 每 一 列 代表 软件 ， 这 些 软件 本 身 是 顺序 的 或 是 并 
发 的 。 图 中 的 每 一 行 代表 硬件 ， 或 串 行 或 并 行 。 例 如 ， 编 写 编译 器 的 程序 员 认 为 编译 器 是 顺 
序 程序 ， 因 为 编译 步骤 包含 分 析 、 代 码 生 成 和 优化 等 。 与 之 相反 ， 编 写 操作 系统 的 程序 员 一 
般 认 为 操作 系统 是 并 发 程序 ， 因 为 操作 系统 需要 协同 处 理 一 个 计算 机 中 多 个 独立 作业 产生 的 
各 种 IO 事件 。 





在 过 去 数 十 年 里 ， 很 多 科学 问题 都 需要 更 快 的 计算 机 ， 同 时 这 [> 通过 局 域 网 连接 的 


共享 内 存 多 处 理 器 : 具有 
单一 物理 地 址 空间 的 并 行 
处 理 器 。 




















串 行 运行 于 Intel Pentium 4 上 的 使 用 MATLAB 运行 于 Intel Pentium 4 上 的 Windows 

二 编写 的 短 阵 生 法 Vista 操 作 系统 
a 运行 于 Intel Core i7 上 的 使 用 MATLAB 运行 于 Intel Core i7 上 的 Windows 

并 行 | 编写 的 矩阵 乘法 Vista 操 作 系统 














图 6-1 硬 / 软 件 分 类 以 及 若干 并 发 应 用 程序 与 并 行 硬件 的 对 比 示例 


图 6-1 说 明 ， 并 发 软件 可 以 运行 于 串 行 硬件 上 (如 运行 在 Intel Pentium 4 单 处 理 器 上 的 
操作 系统 )， 也 可 以 运行 于 并 行 硬件 上 (如 运行 在 最 新 的 Intel Core i7 上 的 操作 系统 )。 而 对 于 
串 行 软件 也 是 如 此 。 例 如 ,MATLAB 程序 员 认 为 矩阵 乘 是 顺序 的 ， 但 可 以 串 行 地 在 Pentium 4 
上 运行 ， 也 可 以 并 行 地 在 Intel Core i7 上 运行 。 

你 也 许 会 认为 并 行 革命 的 唯一 挑战 是 如 何 使 顺序 的 软件 在 并 行 硬件 上 获得 高 性 能 ， 但 如 何 
让 并 发 程序 在 多 处 理 器 上 随处 理 器 数量 增加 而 提高 性 能 也 是 一 个 难点 。 为 了 加 以 区 别 ， 本 章 剩 
余部 分 将 使 用 并 行 处 理 程序 (parallel processing program) 或 并 行 软件 ( parallel software) 表示 运 
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行 在 并 行 硬件 上 的 顺序 软件 或 并 发 软件 。 下 一 节 讲 述 为 什么 很 难 编写 高 效 的 并 行 处 理 程序 。 
在 进一步 讨论 并 行 方法 之 前 ， 别 忘 了 前 面 章节 的 相关 内 容 : 
e 2.11 节 “ 并 行 与 指令 : 同步 ”。 
e 3.6 节 “ 并 行 与 计算 机 算术 : 子 字 并 行 ”。 

。 4.10 节 “ 指 令 级 并 行 "。 

e 5.10 节 “ 并 行 与 存储 器 层次 结构 ，cache 一致 性 " 。 








6.2 ”创建 并 行 处 理 程序 的 难点 

并 行 的 难点 不 在 于 硬件 ， 而 是 目前 只 有 极 少数 重要 的 应 用 程序 被 重 写 ， 以 便 在 多 处 理 器 
上 更 快 地 完成 任务 。 编 写 程序 以 使 用 多 处 理 器 来 更 快 地 完成 任务 是 很 困难 的 ， 并 且 随 着 处 理 
器 数量 的 增加 ， 问 题 会 变 得 更 加 困难 。 

为 什么 会 这 样 呢 ? 为 什么 并 行 处 理 程序 相对 于 顺序 程序 更 难以 开发 呢 ? 

第 一 个 原因 是 ， 你 必须 从 多 处 理 器 上 的 并 行 处 理 程序 中 获取 更 高 的 性 能 或 更 好 的 能 效 ; 否则 ， 
不 如 在 单 处 理 器 上 使 用 顺序 程序 ， 编 写 顺序 程序 要 简单 得 多 。 事 实 上 ， 单 处 理 器 设计 技术 (如 超 
标量 和 乱 序 执行 ) 利用 了 指令 级 并 行 ( 见 第 4 章 )， 并且 通常 不 需要 程序 员 的 介入 。 这 些 技术 减少 
了 重 写 程序 的 需求 ， 程 序 员 不 做 任何 事情 就 可 以 使 他 们 的 串 行程 序 在 新 计算 机 上 运行 得 更 快 。 

为 什么 编写 快速 运行 的 并 行 处 理 程序 非常 困难 ， 尤 其 是 处 理 器 数量 增加 的 时 候 ? 第 1 章 
中 我 们 打 了 个 比方 ， 让 8 个 记者 问 时 编 与 一 个 故事 ， 和 希望 以 8 倍 的 速度 完成 。 为 了 实现 目 
标 ， 任 务必 须 被 分 解 为 等 量 的 8 份 ， 否 则 会 有 一 些 记者 处 于 空闲 等 待 状态 ， 而 其 他 记者 忙于 
完成 较 大 的 片段 。 另 外 一 个 影响 加 速 的 障碍 是 ， 记 者 们 可 能 要 花费 大 量 时 间 进行 沟 通 ， 而 不 
是 专心 编写 自己 的 片段 。 无 论 是 这 个 类 比 还 是 并 行 编程 ， 都 要 面临 如 下 挑战 : 调度 、 将 任务 
分 割 成 并 行 部 分 、 负 载 均衡 、 同 步 时 间 和 不 同 部 分 间 的 通信 开销 。 当 有 更 多 记者 完成 一 篇 新 
闻 报 道 ， 或 使 用 更 多 处 理 器 来 完成 并 行 编程 时 ， 挑 战 会 更 为 严峻 。 

第 1 章 中 还 讨论 了 另外 一 个 障碍 ， 即 Amdahl 定律 。 这 提示 我 们 ， 为 了 充分 利用 多 核 ， 
程序 中 即使 一 个 很 小 的 部 分 也 需要 并 行 化 。 


| 例题 | 加 速 的 挑战 a 
如 果 希 望 在 100 个 处 理 器 上 获得 90 倍 的 加 速 ， 那 么 原始 计算 中 最 多 有 多 少 是 可 以 顺序 
执行 的 呢 ? 
| 答案 | Amdahl 定律 (第 1 章 ) 指出 : 
_ 受 改进 影响 的 执行 时 间 











改进 后 的 执行 时 间 一 一 一 下 进 量 ”十 未 受 改 进 影响 的 执行 时 间 
我 们 可 以 使 用 加 速 相 对 初始 执行 时 间 的 形式 重新 表示 Amdahl 定律 : 
改进 前 的 执行 时 间 
加 速 比 


受 改进 影响 的 执行 时 间 
改进 量 
该 公式 通常 被 改写 为 假定 改进 前 的 执行 时 间 为 ! 个 时 间 单元 的 形式 ， 并 且 将 受 改进 影响 的 执 
加 即将 运行 在 并 行 硬件 上 的 顺序 / 并 发 程序 (或 软件 ) 都 称 为 并 行 处 理 程序 或 并 行 软件 。 一 一 译 者 注 


(改进 前 的 执行 时 间 - 受 改 进 影响 的 执行 时 间 ) 十 
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行 时 间 视 作 原始 执行 时 间 的 比例 : 
加 速 比 








受 改进 影 行 时 

(1- 受 改 二 影响 的 执行 时 间 比 例 ) + 要 疏 于 更 的 执行 时 间 世 全 
改进 晤 

将 加 速 比 震 换 为 99， 改进 量 圭 换 为 008， 代入 上 述 公 趟 中 


90 一 





(1- 受 改 进 影 响 的 执行 时 间 比 例 ) 大 
然后 简化 该 公式 并 求解 受 改进 影响 的 执行 时 间 比 例 : 
90X (1-0.99X 受 改 进 影响 的 执行 时 间 比例 ) = 1 
90- (90X0.99X 受 改 进 影 响 的 执行 时 间 比 例 ) =1 
90-1 =90X0.99x 受 改进 影响 的 执行 时 间 比 例 
受 改进 影响 的 执行 时 间 比 例 = 89/89.1 = 0.999 
因此 ， 要 在 100 个 处 理 器 上 获得 加 速 比 90， 顺 序 执行 部 分 最 多 占 0.1%。 


然而 ， 有 些 应 用 程序 并 行 性 较 高 ， 我 们 将 在 下 面 看 到 。 


| 例题 | 加 速 的 挑战 : 更 大 规模 的 问题 四 
假设 要 执行 两 个 加 法 : 一 个 加 法 对 10 个 标量 求 和 ， 另 一 个 对 两 个 10 x 10 的 二 维和 矩阵 求 

和 。 假 设 只 有 和 矩阵 求 和 可 以 并 行 化 ， 以 后 我 们 会 讨论 如 何 对 标量 求 和 进行 并 行 化 。 使 用 10 

个 和 40 个 处 理 器 的 加 速 比分 别 是 多 少 ?如果 和 矩阵 维 数 是 20 x 20 呢 ? 

| 答案 | 假定 性 能 是 加 法 时 间 :的 函数 ， 那 么 有 10 次 加 法 不 能 从 并 行 处 理 器 中 获 益 ，100 次 

加 法 可 以 获 益 。 如 果 单 处 理 器 上 执行 时 间 为 110!， 那 么 在 10 个 处 理 器 上 执行 的 时 间 是 


改进 后 的 执行 时 间 = 生 政 二 玫 由 内 执行 时 间 + 未 受 发 浊 影 响 的 执行 时 间 























改进 后 的 执行 时 间 = 100U10 + 10t= 201 
因此 ,使 用 10 个 处 理 器 的 加 速 比 是 110W20t = 5.5。 使 用 40 个 处 理 器 的 执行 时 间 是 


改进 后 的 执行 时 间 一 2 +101=12.5t 


因此 ， 使 用 40 个 处 理 器 的 加 速 比 是 1101/12.51 = 8.8。 故 对 于 该 问题 规模 ， 使 用 10 个 处 理 器 
达到 了 潜在 加 速 比 的 55%，, 但 是 使 用 40 个 处 理 器 仅 达到 了 潜在 加 速 比 的 22%。 

再 来 看 看 矩阵 规模 增 大 时 会 发 生 什么 。 顺 序 程序 现在 的 执行 时 间 为 10+ + 4001 = 4101。 
10 个 处 理 器 的 执行 时 间 是 


改进 后 的 执行 时 间 = or= so 
因此 ， 使 用 10 个 处 理 器 的 加 速 比 是 4101150 = 8.2。40 个 处 理 器 的 执行 时 间 是 
改进 后 的 执行 时 间 一 e101=20t 


因此 ， 使 用 40 个 处 理 器 的 加 速 比 是 410420t = 20.5。 故 对 于 较 大 的 问题 规模 ， 使 用 10 个 处 
理 器 获得 了 大 约 82% 的 潜在 加 速 比 ， 而 40 个 处 理 器 时 为 51%。 


加 将 可 并 行 部 分 从 单个 处 理 器 改 到 100 个 处 理 器 上 执行 ， 速 度 提高 了 100 倍 - 一 一 译 者 注 
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这 些 例子 说 明 ， 在 一 个 多 处 理 器 上 获得 更 高 加 速 比 ， 同 时 保持 问题 规模 不 变 ， 相 对 于 通 
过 增加 问题 规模 获得 高 加 速 比 要 更 加 困难 。 为 此 我 们 引入 两 个 术语 来 描述 按 比例 放大 的 方式 。 
强 比例 缩放 ( strong scaling) 指 保持 问题 规模 不 变 的 情况 下 测量 
加 速 比 。 弱 比例 缩放 ( weak scaling) 意味 着 问题 的 规模 与 处 理 器 数 。 | 交 全 让 在 站 尖 训 和 

量 成 比例 增长 。 候 定 问 题 规模 M 是 主 存 中 的 工作 集 ， 处 理 器 数量 为 “| 的 加 过。 
P， 那么 每 个 处 理 器 所 占用 的 内 存 对 于 强 比例 缩放 大 约 是 MP， 对 于 
弱 比 例 缩放 大 约 是 M。 弱 比 例 缩放 : 在 问题 规模 
注意 ,传统 认 知 认为 弱 比 例 缩放 会 比 强 比 例 缩放 简单 ， 但 是 医 A de 
入 多 绪 构 可 能 对 这 一 传统 认 知 产生 影响 。 例 如 ， 如 果 弱 比例 缩 | 全 区 从 的 
放 数据 集 不 再 适用 于 多 核 微 处 理 器 中 最 后 一 层 的 cache， 会 导致 性 能 
比 使 用 强 比例 缩放 时 更 加 本 粒 。 
不 同 应 用 程序 可 以 选择 不 同 的 缩放 方法 。 例 如 ，TPC-C 借贷 数据 库 基准 测试 程序 需要 按 
每 分 钟 内 的 事务 处 理 次 数 成 比例 地 增加 客户 数量 。 这 是 因为 如 果 银 行 装备 了 更 快 的 计算 机 ， 
我 们 也 不 能 假定 客户 从 此 以 后 每 天 使 用 100 次 ArM， 很 明显 这 是 没有 实际 意义 的 。 因 此 ， 
如 果 要 证 明 系统 每 分 钟 处 理 的 事务 次 数 可 以 提高 100 倍 ， 应 当 将 顾客 数量 提高 100 倍 进行 实 
验 。 大 规模 问题 往往 需要 更 多 的 数据 ， 这 是 弱 比 例 缩放 的 一 个 特点 。 
最 后 一 个 例子 说 明了 负载 均衡 的 重要 性 。 


| 例题 | 加 速 的 挑战 : 负载 均衡 = 

为 了 在 前 面 40 个 处 理 器 的 较 大 问题 规模 中 实现 20.5 的 加 速 比 ， 我 们 假定 了 负载 是 完全 
均衡 的 。 也 就 是 说 ，40 个 处 理 器 中 ， 每 一 个 都 完成 了 2.5% 的 工作 。 事 实 上 ， 如 果 一 个 处 理 
器 的 负载 高 于 其 他 处 理 器 ,那么 加 速 比 就 会 受到 影响 。 请 计算 当 其 中 一 个 处 理 器 完成 两 倍 负 
载 (5%) 和 五 倍 负载 ( 12.5%) 时 的 加 速 比 。 其 他 处 理 器 的 利用 率 如 何 ? 
| 答案 | 如 果 一 个 处 理 器 承担 5% 的 并 行 负载 ， 那 么 它 需 要 完成 5% x 400， 即 20 次 加 法 ， 其 余 39 
个 处 理 器 分 担 剩余 的 380 次 加 法 。 由 于 它们 是 同时 运算 的 ,我们 可 以 取 两 个 工作 时 间 的 最 大 值 。 

改进 后 的 执行 时 间 一 Max (er 于 ) +101 = 301 

加 速 比 从 20.5 降低 至 410130! = 14。 剩 下 39 个 处 理 器 的 利用 率 不 及 原来 的 一 半 : 在 等 待 任 
务 最 重 的 处 理 器 完成 204 时 ， 它 们 只 计算 了 380wW39 = 9.71。 

如 果 一 个 处 理 器 承担 12.5% 的 负载 ， 它 必须 执行 50 次 加 法 。 公 式 为 : 

改进 后 的 执行 进 间 一 Max( 至 )+lo= 60r 


加 速 比 进一步 降低 至 410W60t = 7。 其 余 处 理 器 的 利用 率 不 到 原来 的 20% ( 91/50t)。 这 个 例子 
说 明了 负载 均衡 的 重要 性 : 仅 有 一 个 处 理 器 的 负载 是 其 他 处 理 器 的 两 倍 时 ， 加 速 比 几乎 降低 
了 三 分 之 一 ; 而 当 一 个 处 理 器 的 负载 是 其 他 处 理 器 的 五 倍 时 ， 加 速 比 几乎 降低 了 三 分 之 二 。 








现在 我 们 对 并 行 处 理 的 目标 和 挑战 有 了 更 好 的 理解 ， 这 里 先 给 出 本 章 剩 余 内 容 的 概览 。 
6.3 节 介 绍 了 一 个 比 图 6-1 更 古老 的 分 类 方法 。 该 节 也 给 出 了 两 种 可 以 支持 串 行程 序 运行 在 
并 行 硬件 上 的 指令 集结 构 ， 称 为 单 指令 多 数据 ( SIMD) 和 向 量 ( vector)。6.4 节 介绍 了 多 线 
程 (multithreading)， 这 个 概念 经 常 容易 与 多 进程 (multiprocessing) 混淆 ， 部 分 原因 是 它们 
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都 依赖 于 程序 中 相似 的 并 行 性 。6.5 节 介绍 了 第 一 种 基本 并 行 硬件 特性 的 两 种 方案 ， 区 别 在 
于 系统 中 所 有 处 理 器 是 否 采用 单一 的 物理 地 址 空间 。 如 前 面 所 提 到 的 ， 其 中 两 种 常见 形式 是 
共享 内 存 多 处 理 器 (SMP) 和 集群 ， 该 节 讲述 的 是 前 者 。6.6 节 介绍 了 一 种 来 自 图 形 硬件 领域 
的 相对 较 新 的 计算 机 ， 称 为 图 形 处 理 单元 ( Graphics-Processing Unit，GPU)， 只 有 单一 的 物 
理 地 址 空间 (附录 B 更 详细 地 讨论 了 GPU )。6.7 节 介绍 了 集群 ， 这 是 使 用 多 个 物理 地 址 空间 
计算 机 的 一 个 常见 的 例子 。6.8 节 介绍 了 将 多 个 处 理 器 (可 以 是 集群 中 的 多 个 服务 节点 ， 也 
可 以 是 微 处 理 器 中 的 多 个 核 ) 链接 起 来 的 典型 拓扑 结构 。6.9 节 介 绍 了 通过 以 太 网 在 集群 中 
多 个 节点 间 进 行 通信 的 硬件 和 软件 。 该 节 展 示 了 如 何 使 用 客户 软件 和 硬件 来 优化 性 能 。 接 下 
来 6.10 节 探讨 了 寻找 并 行 测试 程序 集 的 困难 。 该 节 也 包含 一 个 简单 但 是 很 有 启发 意义 的 性 
能 模型 ， 这 个 模型 可 用 于 辅助 应 用 程序 及 体系 结构 的 设计 。6.11 节 使 用 该 模型 和 并 行 测试 集 
对 多 核 计算 机 和 GPU 进行 比较 。6.12 节 展 示 了 加 速 矩 阵 乘法 这 一 旅程 的 最 后 也 是 最 庞大 的 
一 个 步 又 。 对 于 无 法 在 cache 中 放下 的 矩阵 ， 使 用 16 个 核 进行 并 行 处 理 得 到 14 倍 的 性 能 改 
进 。 本 章 最 后 分 析 了 一 些 常见 雇 误 和 陷阱 ， 并 进行 了 总 结 。 
下 一 节 将 介绍 代表 不 同 并 行 计 算 机 类 型 的 英文 首 字母 缩写 (你 可 能 已 经 见 过 了 )。 




















小 测验 ”判断 : 强 比例 缩放 不 受 Amdahi 定律 的 约束 。 


6.3 SISD、MIMD、SIMD、SPMD 和 向 量 

20 世纪 60 年 代 提出 的 一 种 并 行 硬件 分 类 方法 一 直 沿 用 至 今 。 
该 分 类 基于 指令 流 的 数量 和 数据 流 的 数量 ， 如 图 6-2 所 示 。 因 此 ， 
传统 的 单 处 理 器 具有 单一 的 指令 流 和 单一 的 数据 流 ， 而 传统 的 多 
处 理 器 具有 多 个 指令 流 和 多 个 数据 流 。 这 两 种 类 别 分 别称 为 SISD 
( Single Instruction stream, Single Date stream) 和 MIMD (Multiple 


SISD : 单 指令 流 单数 据 流 
的 单 处 理 器 





MIMD : 多 指令 流 多 数据 
流 的 多 处 理 器 





Instruction stream, Multiple Data stream). 


| 单 SISD: Intel Pentium 4 | SIMD: x86 的 SSE 指 令 
| 指令 流 Se 











多 | MISD: 目前 没有 示例 MIMD: Intel Corei7 | 





图 6-2 基于 指令 流 和 数据 流 数 量 的 硬件 分 类 和 示例 : SISD、SIMD、MISD 和 MIMD 


虽然 可 以 编写 独立 的 程序 运行 在 一 个 MIMD 计算 机 的 不 同 处 理 器 上 ， 并 让 这 些 程序 一 
起 工作 ， 协 同 完成 一 个 共同 的 大 目标 ， 但 是 编程 人 员 通常 仅 编写 单 | spMD。 单 程序 多 数据 污 
一 程序 运行 在 MIMD 计算 机 的 所 有 处 理 器 上 ， 依 赖 于 条 件 语句 使 不 | 传统 MIMD 编程 模型 ， 一 
同 的 处 理 器 执行 不 同 的 代码 段 。 这 称 为 单程 序 多 数据 ( SPMD)， 是 | 个 程序 运行 在 所 有 处 理 
MIMD 计算 机 编程 的 方式 。 Ne 

最 接近 多 指令 流 单 数据 流 (MISD) 的 处 理 器 应 该 是 “ 流 处 理 器 ” 

g a Te SIMD : 单 指令 流 多 数据 
了 ， 流 处 理 器 在 流水 线形 式 中 对 一 个 单独 的 数据 流 执行 一 系列 计算 ;| ; 局 科 指令 证 用 于 多 
从 网 络 中 解析 输入 ， 分 析 数 据 ， 解 压 数据 ， 查 找 匹 配 ， 等 等 。 而 与 ”| 个 数据 流 ， 如 在 向 量 处 理 
MISD 相反 的 SIMD 更 常见 一 些 ,。 SIMD 计算 机 对 向 量 数据 进行 操作 器 中 那样 
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例如 ,单一 的 SIMD 指令 可 以 把 64 个 数 相 加 ， 只 需要 把 64 个 数据 流 发 送 到 64 个 ALU， 从 
而 在 一 个 时 钟 周期 内 得 到 64 个 和 。3.6 节 和 3.7 节 中 的 子 字 并 行 指令 是 另 一 个 SIMD 的 例子 ; 
实际 上 ，Intel 的 SSE 中 的 第 二 个 S 就 代表 SIMD。 

SIMD 的 优点 在 于 所 有 的 并 行 执行 单元 都 是 同步 的 ， 并 且 这 些 单元 都 响应 单个 程序 计数 
器 (PC) 发 出 的 单个 指令 。 从 程序 员 的 角度 来 看 ， 这 接近 于 我 们 已 经 熟悉 的 SISD。 尽 管 每 
个 单元 都 将 执行 相同 指令 ,但 是 每 个 执行 单元 都 有 自己 的 地 址 寄存 器 ， 因 此 每 个 单元 可 以 有 
不 同 的 数据 地 址 。 因 此 ， 就 图 6-1 而 言 ,一 个 顺序 应 用 程序 编译 后 可 能 运行 于 组 织 为 SISD 
形式 的 串 行 硬件 上 ,也 可 能 运行 于 组 织 为 SIMD 形式 的 并 行 硬件 上 。 

SIMD 的 初衷 是 将 控制 单元 的 成 本 分 排 到 儿 十 个 执行 单元 上 。 因 此 ，SIMD 的 另 一 个 
优点 是 降低 了 指令 宽度 和 空间 一 一 SIMD 只 需要 同时 执行 代码 的 一 个 副本 ， 而 消息 传递 的 
MIMD 可 能 每 个 处 理 器 都 需要 一 个 副本 ， 共 享 内 存 MIMD 则 需要 多 个 指令 cache。 

SIMD 在 处 理 for 循环 中 的 数组 时 最 为 有 效 。 因 此 ,为 了 在 SIMD 中 并 行 工作 ， 必 须 有 
大 量 相同 结构 的 数据 ， 一 般 称 为 数据 级 并 行 ( data-level parallelism)。SIMD 在 处 理 case 或 
switch 语句 时 效率 最 低 ， 此 时 每 个 执行 单元 必须 根据 不 同 的 数据 执 让 井 生 2 训 
行 不 同 的 操作 。 带 有 错误 数据 的 执行 单元 必须 被 握 弃 ， 而 带 有 正确 | 执行 相同 操作 所 获得 的 
数据 的 执行 单元 将 继续 执行 。 车 有 n 个 case， 在 这 种 情况 下 ，SIMD | 并 行 。 
处 理 器 将 会 以 峰值 性 能 的 1/n 运行 。 

促使 SIMD 类 型 产生 的 阵列 处 理 器 已 褪 变 成 历史 ( 见 网 站 上 6.15 节 ), 但 是 直到 现在 对 
SIMD 的 两 种 解释 依然 在 使 用 。 


6.3.1 x86 中 的 SIMD: 多 媒体 扩展 


如 第 3 章 所 述 ， 对 窄 整 型 数据 的 子 字 并 行 是 1996 年 x86 多 媒体 扩展 ( Multimedia Exten- 
sion，MMX) 指令 产生 的 最 初 灵感 来 源 。 随 着 刻 娘 串 律 的 持续 ， 更 多 的 指令 被 加 入 进来 ， 产 
生 了 最 初 的 SSE(Streaming SIMD Extension) 指令 集 ， 现 在 为 AVX(Advanced Vector Extension) 
指令 集 。AVX 支持 4 个 64 位 浮 点 数据 同时 执行 。 操 作 和 寄存 器 的 位 宽 编 码 到 多 媒体 指令 的 
操作 码 中 。 随 着 寄存 器 和 操作 的 位 宽 增 加 ， 多 媒体 指令 的 操作 码 数量 也 在 增加 ， 现 在 已 经 有 
数 百 条 SSE 和 AVX 指令 ( 见 第 3 章 )。 











6.3.2 向 量 


SIMD 的 一 个 更 古老 、 更 优雅 的 解释 是 向 量 体 系 结构 ( vector architecture)， 非 常 接近 于 
Seymour Cray 在 20 世纪 70 年 代 开 始 设计 制造 的 计算 机 。 向 量 体 系 结构 非常 适合 有 大 量 数据 
并 行 的 问题 。 与 早期 的 阵列 处 理 器 类 似 ， 向 量 体 系 结构 将 ALU 流水 化 ， 而 不 是 用 64 个 ALU 
同时 执行 64 次 加 法 ， 从 而 以 较 低 的 成 本 获得 高 性 能 。 向 量 体 系 结构 的 基本 理念 是 从 存储 器 中 
收集 数据 元 素 ， 并 按 顺序 放 到 一 大 组 寄存 器 中 ， 然 后 使 用 茵 深 发 式 的 执行 单元 在 寄存 器 中 对 
它们 依次 操作 ， 最 后 将 结果 写 回 存储 器 。 向 量 体 系 结构 的 一 个 关键 特征 是 有 一 组 向 量 寄存 器 。 
因此 ， 向 量 体 系 结构 可 能 拥有 32 个 向 量 寄存 器 ， 每 个 寄存 器 包含 64 个 64 位 宽 的 元 素 。 


| 例题 | 向 量 代码 与 常规 代码 的 比较 
假设 用 向 量 指令 和 向 量 寄存 器 扩展 LEGv8 指令 集体 系 结构 。 向 量 操作 沿用 LEGv8 的 操作 
名 称 ,但 在 其 后 增加 一 个 字母 “V”。 例 如 ，FADDDV 表示 将 两 个 双 精度 向 量 相 加 。 同 样 ， 将 
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SIMD 指令 使 用 的 32 个 向 量 寄存 器 从 2 个 64 位 元 素 扩 展 为 64 个 64 位 元 素 。 向 量 指令 的 输入 可 
以 是 一 对 向 量 (V) 寄存 器 (FRDDDVS)， 也 可 以 是 一 个 向 量 寄存 器 和 一 个 标量 寄存 器 (FRDDDVS)。 
后 一 种 情况 下 ,标量 寄存 器 的 值 用 作 所 有 操作 的 输入 一 一 FADDDVS 操作 将 会 把 一 个 标量 寄存 器 
的 内 容 加 到 向 量 寄存 器 中 的 每 个 元 素 上 。LDURDV 和 STURDV 分 别 代表 向 量 load 和 向 量 store， 
即 load 或 store 整个 双 精 度数 据 向 量 。LDURDV 和 STURDYV 的 一 个 操作 数 是 要 被 load 或 store 的 向 
量 寄存 嚣 ; 另 一 个 操作 数 是 LEGv8 的 通用 寄存 器 ， 用 来 给 出 向 量 在 存储 器 中 的 起 始 地 址 。 
根据 上 述 简要 说 明 ， 给 出 下 面 表达 式 的 常规 LEGv8 代码 以 及 向 量 LEGv8 代码 : 
Y=axX+Y 

其 中 关 和 YY 是 64 位 双 精 度 浮 点 数 的 向 量 ， 初 始 保存 在 存储 器 中 ; a 是 一 个 双 精 度 标量 。( 这 
个 例子 就 是 所 谓 的 DAXPY 循环 ， 其 构成 了 Linpack 基准 测试 程序 的 内 部 循环 。DAXPY 表 
示 double precision a x 义 plus 了 。) 假定 X 和 了 的 起 始 地 址 分 别 保存 在 X19 和 X20 中 。 

| 答案 | 下 面 是 DAXPY 的 常规 LEGv8 代码 : 


LDURD D0,[X28,a] //load scalar a 
ADDI X0,.X19.512 //upper bound of what to load 
loop: LDURD D2,[X19,.#0]  //1oad x(i) 


FMULD D2.02,00 l/la x x(i) 
LDURD D4,[X20,#0] //1load y(i) 
FADDD D4,D4,D2 la x x(1) + y(i) 


STURD D4,[X20,#0] //store into y(i) 
ADDI X19,X19,#8 //increment index to x 
ADDI X20 ,X20 .#8 //increment index to y 


CMPB x0,X19 //compute bound 
B.NE loop //check if done 
下 面 是 DAXPY 的 向 量 LEGv8 代码 : 
LDURD D0,[X28.a] //1oad scalar a 
LDURDV V1,[X19,#0] //1oad vector x 
FMULDVS V2,V1,00 /1Vvector-scalar multiply 
LDURDY V3,[X20,#0] /1/10ad vector y 
FADDDV V4 ,V2,V3 //add y to product 
STURDYV V4.[X20,#0] 1/Sstore the result 





比较 该 例 中 的 两 段 代码 ， 你 会 发 现 一 些 有 趣 的 地 方 。 最 引 人 注 目的 是 向 量 处 理 器 大 大 降 
低 了 动态 指令 ?的 带宽 ， 仅 用 6 条 指令 就 完成 了 将 近 600 条 传统 LEGv8 指令 的 工作 。 降 低 的 
原因 一 是 向 量 操作 一 次 处 理 64 个 元 素 ， 二 是 LEGv8 中 接近 一 半 开 销 的 循环 指令 在 向 量 代码 
中 不 存在 了 。 正 如 你 所 想 的 一 样 ， 指 令 取 指 和 执行 次 数 的 降低 也 会 节省 能 耗 。 

另 一 个 重要 的 不 同 在 于 国明 愤 阻 宕 频率 ( 见 第 4 章 )。 在 简单 的 LEGv8 代码 中 ， 每 个 
FADDD 必须 等 待 一 个 FMULD， 并 且 每 个 STURD 必须 等 待 FADDD， 另 外 每 个 FADDD 和 FMULD 
必须 等 待 IDURD。 在 向 量 处 理 器 中 ， 每 条 向 量 指令 只 会 在 每 个 向 量 的 起 始 元 素 处 阻塞 ， 后 续 
元 素 都 会 顺畅 地 通过 流水 线 。 因 此 ， 流 水 线 阻 塞 在 每 次 向 量 操作 时 只 会 发 生 一 次 ， 而 不 是 每 
个 向 量 元 素 一 次 。 在 这 个 例子 中 ，LEGv8 中 的 流水 线 阻塞 频率 比 LEGv8 向 量 版 的 阻塞 频率 
高 了 约 64 倍 。 当 然 ，LEGv8 可 以 采用 循环 展开 技术 减少 流水 线 阻 塞 ( 见 第 4 章 )。 但 是 指令 
带宽 的 巨大 差异 是 无 法 减 小 的 。 

由 于 向 量 元 素 是 相互 独立 的 ， 因 此 可 以 并 行 操作 ， 很 像 Intel x86 AVX 指令 的 子 字 并 行 。 


名 即 实际 执行 的 指令 数量 ， 一 条 指令 多 次 执行 就 对 应 多 个 动态 指令 。 一 译 者 注 
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所 有 现代 向 量 计算 机 都 带 有 具有 多 个 并 行 流水 线 ( 称 为 向 量 通道 ( vector lane)， 见 图 6-2 和 
图 6-3 ) 的 向 量 功能 单元 ， 每 个 时 钟 周期 可 以 产生 两 个 甚至 更 多 的 结果 。 

虎 钥 以 上 例子 中 的 循环 大 小 与 向 量 长 度 精 确 匹 配 。 当 循环 变 短 时 ， 向 量 体 系 结构 可 以 
使 用 降低 向 量 操作 长 度 的 寄存 顺 。 当 循环 变 大 时 ， 我 们 可 以 增加 簿 记 代 码 来 迁 代 全 长 度 的 向 
量 操作 ， 并 处 理 剩余 部 分 。 后 面 的 处 理 过 程 称 作 条 带 开发 (strip mining)。 


6.3.3 向量 与 标量 


与 常规 指令 集体 系 结构 (这 里 称 为 标量 体系 结构 ) 相 比 ， 向 量 指令 具有 几 个 重要 的 属性 ; 

。 一 条 向 量 指令 可 以 指定 很 多 工作 一 一 等 价 于 执行 整个 循环 。 因 而 ， 指 令 取 指 和 译 码 带 
宽 的 需求 显著 降低 了 。 

。 通过 使 用 向 量 指令 ， 编 译 器 或 程序 员 隐 含 指 明 向 量 中 每 个 结果 的 计算 与 同一 向 量 中 其 
他 结果 的 计算 是 不 相关 的 ， 因 而 硬件 无 须 检查 一 条 向 量 指令 内 的 数据 相关 。 

。 相对 于 使 用 MIMD 多 处 理 器 ， 向 量 结构 和 编译 器 编写 高 效 的 应 用 程序 (包含 数据 级 
并 行 ) 要 容易 得 多 。 

。 硬件 只 需要 在 两 条 向 量 指令 之 间 对 每 个 向 量 操作 数 检查 一 次 数据 相关 ， 而 不 是 对 向 量 
内 的 每 个 元 素 检查 一 次 。 因 此 ， 检 查 次 数 的 降低 也 会 使 得 能 耗 降低 。 

e 访问 内 存 的 向 量 指令 有 一 个 已 知 的 访问 模式 。 如 果 向 量 元 素 都 是 地 址 连续 的 ， 那 么 从 
-组 高 度 交 叉 的 bank 中 取出 一 个 向 量 将 会 很 快 。 因 此， 对 整个 向 量 而 言 ， 主 存 延 迟 
的 开销 看 上 去 只 有 一 次 ， 而 不 是 对 向 量 中 每 个 字 都 有 一 次 。 

e 因为 整个 循环 被 一 条 具有 预定 义 行为 的 向 量 指令 所 替换 ， 所 以 通常 由 循环 分 支 指令 造 
成 的 控制 相关 就 不 存在 了 。 

。 节省 的 指令 带宽 和 相关 检查 以 及 存储 器 带宽 的 有 效 使 用 ， 使 得 向 量 体 系 结构 在 能 耗 方 
面 优 于 标量 体系 结构 - 

由 于 这 些 原因 ， 对 于 相同 数量 的 数据 项 ， 向 量 操作 比 一 组 标量 操作 序列 更 快 ， 并 且 如 果 

应 用 程序 可 以 频繁 使 用 这 些 向 量 操作 ， 设 计 者 就 会 考虑 加 入 向 量 单元 。 


6.3.4 ”向量 与 多 媒体 扩展 


与 x86 AVX 多 媒体 扩展 指令 类 似 ， 向 量 指令 可 以 指定 多 个 操作 。 然 而 ， 多 媒体 扩展 指 
令 通常 仅 指定 少数 几 个 操作 ， 而 向 量 指令 可 以 指定 几 十 个 操作 。 与 多 媒体 扩展 不 同 ， 向 量 
操作 中 元 素 的 数量 不 在 操作 码 中 ， 而 是 在 一 个 单独 的 寄存 器 中 。 这 个 区 别 意味 着 不 同 版 本 
的 向 量 体 系 结构 只 需 修 改 该 寄存 器 的 值 ， 就 能 够 实现 不 同 的 向 量 体 系 结构 版 本 ， 并 保持 二 
进 制 代码 的 兼容 性 。 相反 ,在 x86 的 多 媒体 扩展 体系 结构 中 (MMX、SSE、SSE2、AVX、 
AVX2…… )， 每 次 “向 量 ” 长 度 改 变 时 都 需要 加 和 大量 新 的 操作 码 。 
还 有 一 点 与 多 媒体 扩展 不 同 ， 数 据 传 输 不 必 是 连续 的 。 向 量 同时 支持 按 步 长 访问 和 按 索 
引 访问 。 对 于 前 者 ， 硬 件 加 载 内 存 中 的 每 ”个 数据 元 素 ; 对 于 后 者 ， 硬 件 找到 数据 项 的 地 址 ， 
并 将 数据 项 加 载 到 向 量 寄存 器 中 。 按 索引 访问 也 称 作 聚 集 - 分 散 ( gather-scatter)， 按 索引 
load 将 内 存 中 的 数据 元 素 聚 集成 连续 的 向 量 元 素 ， 而 按 索 引 store 将 向 量 元 素 分 散 到 内 存 中 。 

与 多 媒体 扩展 类 似 ， 向 量 结构 可 以 灵活 地 支持 不 同 的 数据 宽度 ， 既 可 以 在 32 个 64 位 数 
据 上 进行 向 量 操作 ， 也 可 以 在 64 个 32 位 数据 、128 个 16 位 数据 或 者 256 个 8 位 数据 上 进行 
向 量 操作 。 向 量 指令 的 并 行 特性 使 其 可 以 采用 一 个 深度 世 素 线 功能 单元 、 一 个 并 行 功能 单元 
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阵列 或 并 行 功能 单元 与 流水 线 功 能 单元 的 组 合 来 实现 。 图 6-3 说 明了 如 何 通 过 并 行 流水 线 执 
行 一 条 向 量 加 法 指令 来 提高 向 量 的 性 能 。 
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a) b) 
图 6-3 使 用 多 个 功能 单元 来 提升 单个 向 量 加 法 指令 C=A+B 的 性 能 。 左 侧 向 量 处 理 器 有 一 条 加 法 流水 
线 ， 一 个 周期 完成 一 个 加 法 。 右 侧 向 量 处 理 器 有 四 条 加 法 流水 线 (或 通道 )， 一 个 周期 可 以 完成 
四 个 加 法 。 一 条 向 量 加 法 指令 的 数据 元 素 被 分 又 地 放 到 四 个 通道 中 


向 量 算术 指令 通常 只 人 允许 一 个 向 量 寄存 器 的 元 素 N 与 其 他 向 量 ”| 向 量 通道 :一 个 或 多 个 向 
寄存 器 的 元 素 N 进行 计算 。 这 极 大 地 简化 了 高 度 并 行 化 的 向 量 单元 站 二 有 
的 实现 ， 即 可 以 构造 为 多 个 并 行 向 量 通道 (vector lane) 的 形式 。 和 2 0 
高 速 公路 一 样 ， 我 们 可 以 通过 增加 更 多 的 通道 数量 来 提高 向 量 单元 | 进 吉 的 启发 ， 多 个 通才 同 
的 峰值 吞吐 率 。 图 6-4 展示 了 一 个 四 通道 的 向 量 单元 的 结构 。 因 此 ， | 时 执行 向 量 操作 。 
从 一 个 通道 增加 至 四 个 ， 将 每 条 向 量 指令 的 周期 数 减少 至 约 为 原来 
的 14。 要 使 多 通道 具有 优势 ， 应 用 程序 和 体系 结构 都 必须 支持 长 向 量 。 否 则 ， 指 令 会 很 快 
地 执行 完毕 以 至 于 没有 新 的 指令 去 执行 ， 那 么 就 需要 类 似 第 4 章 中 的 指令 级 品 街 技术 来 提供 
足够 的 向 量 指令 。 

总 的 来 说 ， 向 量 体 系 结构 是 执行 数据 并 行 处 理 程序 的 一 种 有 效 途 径 ， 比 多 媒体 扩展 更 适 
合 与 编译 器 技术 匹配 。 并 且 相对 x86 体系 结构 的 多 媒体 扩展 ， 向 量 技术 更 容易 随时 间 推移 不 
断 进化 。 

上 面 给 出 了 一 些 经 典 的 分 类 方法 ， 接 下 来 考察 如 何 发 掘 指令 的 并 行 流 来 提高 单 处 理 器 的 
性 能 ， 该 方法 还 将 在 多 处 理 器 中 重用 。 

| 哺 铺 ; 殉 然 白 量 有 这 些 优点 ， 那 么 为 何在 高 性 能 计算 领域 之 外 ， 向 量 并 没有 流行 呢 ? 
主要 原因 包括 : 向 量 寄存 器 的 巨大 状态 增加 了 上 下 文 切换 时 间 ， 以 及 向 量 存 取 产生 的 缺 页 故 
障 的 处 理 难度 ; SIMD 指令 也 可 以 获得 向 量 指令 的 部 分 优势 。 此 外 ， 只 要 指令 级 并 行 可 以 提 
供 二 本 沾 委 承诺 的 性 能 提升 ， 那 么 就 没有 理由 去 改变 体系 结构 的 类 型 。 

捕 铺 ;向量 和 多 媒体 扩展 的 另 一 个 优点 是 ， 用 这 些 指令 扩展 标量 指令 集体 系 结构 并 提高 
数据 并 行 操作 的 性 能 是 相对 容易 的 。 
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图 6-4 四 通道 向 量 处 理 器 的 结构 。 向 量 寄存 器 分 布 在 各 个 通道 中 ， 每 个 通道 保存 每 个 向 量 寄存 器 四 分 
之 一 的 元 素 。 图 中 给 出 了 三 个 向 量 功能 单元 ; 一 个 浮 点 加 法 器 、 一 个 浮 点 乘法 器 和 一 个 存 取 单 
元 。 每 一 个 向 量 算术 单元 都 包含 四 个 执行 流水 线 ， 每 个 通道 一 个 ， 一 起 完成 一 条 向 量 指令 。 注 
意向 量 寄存 器 的 每 一 部 分 是 如 何 只 需要 为 自己 的 通道 的 功能 单元 提供 足够 的 读 和 写 端 口 ( 见 第 


4 章 ) 的 


导电 Intel 的 Haswell x86 处 理 器 支持 AVX2 指令 集 , AVX2 只 有 聚集 操作 而 没有 分 散 操作 





6.4 ”硬件 多 线程 


和 MIMD 相关 的 一 个 概念 ， 特 别 是 从 程序 员 的 角度 来 看 ， 就 
是 硬件 多 线程 (hardware multithreading)。MIMD 依赖 于 多 个 进程 
(process) 或 线程 (thread) 以 试图 使 多 个 处 理 器 处 于 忙碌 状态 ， 而 硬 
件 多 线程 允许 多 个 线程 以 一 种 重叠 的 方式 共享 单 处 理 器 的 功能 单元 ， 
以 有 效 地 利用 硬件 资源 。 为 了 支持 这 种 共享 ， 处 理 器 复制 每 个 线程 
的 独立 状态 。 例 如 ， 每 个 线程 必须 拥有 寄存 器 文件 和 PC 的 独立 备 
份 。 存 储 器 自身 可 以 通过 虚拟 存储 机 制 (支持 多 道 程序 设计 ) 实现 共 
享 。 此 外 ， 硬 件 必须 能 够 以 相对 较 快 的 速度 切换 线程 。 特 别 地 ， 线 
程 切换 相对 进程 切换 应 该 更 加 有 效 ， 线 程 切换 可 以 是 实时 的 ， 而 进 
程 切换 一 般 需 要 数 百 个 到 数 千 个 处 理 器 周期 。 

硬件 多 线程 主要 有 两 种 实现 方法 。 细 粒度 多 线程 ( fine-grained 
multithreading) 在 每 条 指令 的 线程 间 切 换 ， 使 得 多 个 线程 交叉 执行 。 
这 种 交叉 通常 以 轮转 (round-robin) 方式 进行 ,并 跳 过 该 时 钟 周期 内 
处 于 阻塞 状态 的 线程 。 为 了 实现 细 粒 度 多 线程 ， 处 理 器 必须 能 够 在 





硬件 多 线程 ， 当 一 个 线程 
阻塞 时 ， 切 换 到 另 一 个 线 
程 以 提高 处 理 器 的 效用 ， 


进程 : 进程 包含 一 个 或 多 
个 线程 、 地 址 空间 以 及 操 
作 系 统 状态 。 因 此 一 次 进 
程 切换 通常 需要 调用 操作 
系统 ， 但 线程 切换 不 需要 。 


线程 : 线程 包含 程序 计数 
器 、 寄 存 器 状态 和 栈 。 线 
程 是 轻 量 级 的 进程 ; 多 个 
线程 通常 共享 单一 的 地 址 
空间 ， 而 进程 不 是 。 


细 粒 度 多 线程 : 硬件 多 线 
程 的 一 种 形式 ， 每 条 指令 
之 后 都 要 进行 线程 切换 。 
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每 个 时 钟 周期 进行 线程 切换 。 细 粒度 多 线程 的 一 个 优点 是 可 以 隐藏 由 短 阻塞 和 长 阻塞 引起 的 
吞吐 率 损失 ， 因 为 当 一 个 线程 阻塞 时 ， 其 他 线程 的 指令 可 以 执行 。 细 粒度 多 线程 的 主要 缺点 
是 降低 了 独立 线程 的 执行 速度 ， 因 为 处 于 就 绪 状态 且 没 有 阻塞 的 线程 会 因为 其 他 线程 的 指令 
而 延迟 执行 。 

粗 粒度 多 线程 是 细 粒 度 多 线程 的 一 种 蔡 代 ， 仅 在 高 开销 阻塞 (如 最 后 一 级 cache 缺失 ) 
时 才 进 行 线程 切换 。 这 种 变化 缓解 了 快速 线程 切换 的 需求 ， 并 且 几 乎 不 会 降低 单个 线程 的 执 
行 速度 ， 因 为 其 他 线程 的 指令 只 会 在 一 个 线程 遇 到 一 个 高 开销 的 阻塞 时 才 会 被 发 射 。 然 而 ， 
粗 粒 度 多 线程 有 一 个 严重 的 缺点 ， 即 在 隐藏 吞吐 率 损失 方面 能 力 受 
限 ， 特 别 是 短 阻塞 。 这 种 限制 源 自 粗 粒 度 多 线程 中 的 功 索 绕 启 动 开 | 粗 粒 度 多 线程 : 硬件 多 线 
销 。 因 为 粗 粒 度 多 线程 处 理 器 从 单一 线程 发 射 指令 ， 在 阻塞 发 生 时 ， | 全 生 二 可 攻 全 人 全 
必须 清空 或 冻结 流水 线 。 阻 塞 之 后 开始 执行 的 新 线程 必须 在 指令 完成 | sche 起 天 ) 之 忆 进 行星 
之 前 填充 流水 线 。 由 于 启动 开销 相对 较 高 ， 粗 粒度 多 线程 更 加 适合 用 | 切换 
来 降低 高 开销 阻塞 带 来 的 损失 ， 因 为 在 这 种 情况 下 ， 与 阻塞 时 间 相 
比 ， 流 水 线 重新 填充 时 间 可 以 忽略 。 nym 

同时 多 线程 ( Simultaneous MultiThreading，SMT) 是 硬件 多 线 本 汪 这 是 必 六 双 利 好 入 二 
程 的 一 个 变种 ， 使 用 多 发 射 动 态 调度 甘 弱 线 处 理 器 的 资源 来 挖掘 线 | 降低 多 线程 的 开销 。 
程 级 并 行 ， 并 同时 开发 指令 级 并 行 ( 见 第 4 章 )。SMT 提出 的 主要 原 
央 是 多 发 射 处 理 器 通常 有 更 多 的 功能 单元 并 行 性 ， 而 这 对 单线 程 而 言 是 难以 充分 利用 的 。 此 
外 ， 借 助 于 寄存 器 重 命名 和 动态 调度 ( 见 第 4 章 )， 来 自 于 独立 线程 的 多 个 指令 可 以 在 不 考虑 
彼此 之 间 的 依赖 性 的 情况 下 就 被 发 射 ， 依 赖 性 可 以 由 动态 调度 来 处 理 。 

由 于 SMT 依赖 于 现 有 的 动态 机 制 ， 因 此 不 需要 每 个 周期 切换 资源 。 事 实 上 ，SMT 总 是 
执行 来 自 多 个 线程 的 指令 ， 由 硬件 将 指令 槽 和 重 命名 寄存 器 与 适当 的 线程 关联 起 来 。 

图 6-5 说 明了 不 同 配置 下 处 理 器 开发 超标 量 资源 时 能 力 的 差别 。 上 面 的 部 分 表示 四 个 线 
程 如 何在 不 支持 多 线程 的 超标 量 处 理 器 上 独立 运行 。 下 面 的 部 分 表示 四 个 线程 如 何 组 合 起 
来 ， 以 三 种 不 同 的 多 线程 方式 在 处 理 器 上 更 加 有 效 地 运行 : 

e 支持 粗 粒 度 多 线程 的 超标 量 。 

。 支持 细 粒 度 多 线程 的 超标 量 。 

。 支持 同时 多 线程 的 超标 量 。 

在 不 支持 硬件 多 线程 的 超标 量 处 理 器 中 ， 指 令 发 射 模 的 使 用 受 限于 指令 级 茵 条 的 缺乏 。 
此 外 ， 一 个 重要 的 阻塞 (如 指令 缓存 缺失 ) 会 使 整个 处 理 器 空闲 。 

在 粗 粒度 多 线程 超标 量 处 理 器 中 ， 切 换 到 其 他 线程 使 用 处 理 器 资源 ， 可 以 部 分 隐藏 长 
阻塞 。 尽 管 这 能 降低 完全 空闲 的 时 钟 周期 的 数量 ， 但 是 流水 线 的 启动 开销 仍然 会 带 来 空闲 周 
期 ,并 且 ILP 的 限制 意味 着 所 有 发 射 槽 都 不 会 被 使 用 。 在 细 粒 度 多 线程 中 ， 线 程 的 交叉 执行 
主要 消除 了 空闲 时 钟 周期 。 由 于 在 给 定 的 时 钟 周期 仅 有 单一 线程 发 射 指令 ， 指 令 级 并 行 的 限 
制 仍 会 导致 某 些 时 钟 周期 出 现 空闲 发 射 槽 。 

在 SMT 中 ,线程 级 并 行 和 指令 级 并 行 都 得 到 了 开发 ， 在 单个 时 钟 周期 内 有 多 个 线程 使 
用 发 射 槽 。 理 想 情况 下 ， 发 射 槽 的 使 用 仅 受 多 个 线程 间 资 源 失衡 和 资源 可 用 性 的 限制 。 实 际 
上 ， 还 有 一 些 其 他 因素 限制 了 可 使 用 的 发 射 槽 的 数量 。 尽 管 图 6-5 大 大 简化 了 这 些 处 理 器 的 
实际 操作 ， 但 是 它 确 实体 现 了 多 线程 在 一 般 多 线程 和 (特别 是 ) SMT 上 潜在 的 性 能 优势 。 

图 6-6 画 出 了 在 Intel Core i7 960 的 一 个 处 理 器 上 多 线程 的 性 能 和 能 耗 优势 ，Intel Core 
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图 6-5 ”四 个 线程 如 何以 不 同方 式 利用 超标 量 处 理 器 中 的 发 射 柳 。 上 面 四 个 线程 显示 了 每 个 线程 独立 
运行 在 不 支持 多 线程 的 标准 超标 量 处 理 器 上 的 情况 。 下 面 给 出 了 三 个 线程 以 三 种 不 同 多 线程 模 
式 一 起 执行 时 的 情况 。 水 平方 向 表示 每 个 时 钟 周 期 的 指令 发 射 量 。 垂 直方 向 表示 时 钟 周期 的 序 
列 。 空 块 ( 白 块 ) 表示 该 周期 对 应 的 发 射 槽 没有 被 使 用 。 不 同 灰 度 的 块 对 应 于 多 线程 处 理 器 中 
的 四 个 不 同 线程 。 粗 粒度 多 线程 中 额外 的 流水 线 启动 开销 在 本 图 中 没有 体现 ， 这 个 开销 会 导致 
粗 粒 度 多 线程 更 多 的 否 吐 率 损失 
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6-6 在 订 处 理 器 的 一 个 核 上 使 用 多 线程 运行 PARSEC 测试 集 ( 见 6.9 节 ) 的 平均 加 速 比 为 1.31， 功 
耗 效率 提升 达 1.07。 该 数据 是 由 Esmaeilzadeh 等 收集 并 分 析 [ 2011 ] 
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这 960 支持 两 个 线程 。 平 均 加 速 比 为 1.31， 考 虑 到 硬件 多 线程 中 适度 的 额外 资源 ， 这 并 不 算 
坏 。 平均 能 耗 效率 提升 为 1.07， 效 果 很 好 。 总 之 ， 对 于 在 能 耗 不 变 的 前 提 下 性 能 得 到 了 提升 
总 是 使 人 高 兴 的 。 

现在 我 们 看 到 了 多 个 线程 如 何 更 有 效 地 使 用 单个 处 理 器 的 资源 ， 接 下 来 看 看 如 何 利用 多 
线程 来 发 气 多 人 处理 器 的 资源 。 








6.5 多核 和 其 他 共享 内 存 多 处 理 器 


尽管 硬件 多 线程 以 适度 的 成 本 提升 了 处 理 器 的 效率 ， 但 过 去 十 年 中 的 一 大 挑战 是 如 何 通 
过 有 效 的 编程 来 利用 每 芯片 上 数量 不 断 增 长 的 处 理 器 以 使 性 能 按 器 哟 渤 律 继续 增长 。 

由 于 重 写 原 有 程序 以 使 之 在 并 行 硬件 上 很 好 地 运行 是 很 困难 的 ， 因 此 一 个 自然 的 问题 就 
是 : 计算 机 设计 者 如 何 做 才能 简化 任务 。 一 种 方法 是 提供 一 个 可 被 所 有 处 理 器 共享 的 单一 物 
理 地 址 空间 ， 从 而 使 程序 不 必 关 心 它们 的 数据 在 哪里 ， 只 要 知道 程序 可 以 并 行 执行 。 在 这 种 
方法 中 ， 程 序 的 所 有 变量 可 以 对 其 他 任何 处 理 器 在 任何 时 刻 都 是 可 见 的 。 另 一 种 方法 是 每 个 
处 理 器 都 有 一 个 独立 的 地 址 空间 ， 并 且 必 须 显 式 共享 ;6.7 节 将 对 此 进行 描述 。 当 物理 地 址 
空间 公用 时 ,通常 由 硬件 提供 cache 一 致 性 ， 以 便 保 证 共享 内 存 的 一 致 性 (参见 5.8 节 )。 

综 上 所 述 ， 共 享 内 存 多 处 理 器 ( Shared Memory Multiprocessor，SMP) 为 程序 员 提供 了 





跨越 所 有 处 理 器 的 单一 物理 地 址 空间 一 一 这 是 多 核 芯片 常见 的 状态 一 一 尽管 更 准确 的 术语 应 
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该 是 共享 地 址 多 处 理 器 。 处 理 器 通过 存储 器 中 的 共享 变量 进行 通信 ， 所 有 处 理 器 都 可 以 通过 
load/store 指令 访问 存储 器 中 的 任何 位 置 。 图 6-7 给 出 了 SMP 的 典型 组 成 。 注 意 ， 这 些 系统 
仍 可 以 在 自己 的 虚拟 地 址 空间 中 运行 独立 的 程序 ， 即 便 它们 共享 同一 个 物理 地 址 空间 。 
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图 6-7 共享 内 存 多 处 理 器 的 典型 组 成 


单一 地 址 空间 的 多 处 理 器 有 两 种 类 型 。 对 于 第 一 种 类 型 ， 存 储 | 

器 中 一 个 字 的 访问 延迟 与 由 哪个 处 理 器 提出 访 存 请 求 无 关 。 这 类 机 人 
器 称 为 统一 存储 访问 (Uniform Memory Access，UMA) 多 处 理 器 。 | 避 闻 个 处 理 器 发 出 ， 主 存 
对 于 第 二 种 类 型 ， 一 些 访 存 请 求 会 比 其 他 的 快 ， 取 决 于 哪个 处 理 器 | 中 任意 字 的 访问 延 妈 基本 
访问 哪个 字 ， 主 要 原因 是 主 存 被 分 割 并 分 配给 同一 个 芯片 上 的 不 同 | 相同 。 
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处 理 器 或 内 存 控 制 器 。 这 类 机 器 称 为 非 统一 存储 访问 ( Nonuniform | 非 统 一 存储 访问 : 单一 地 
Memory Access，NUMA) 多 处 理 器 - NUMA 多 处 理 器 的 编程 难度 | 址 空间 多 处 理 器 的 一 种 类 
要 高 于 UMA 多 处 理 器 ， 但 NUMA 机 器 可 以 扩展 到 更 大 规模 ， 并 且 | 入 站 生生 汪汪 人 和 
访 存 ， 访 存 过 度 与 访问 
NUMA 访问 附近 的 存储 器 时 延迟 较 低 。 哪个 处 理 器 的 哪个 字 相关 | 
由 于 并 行 执行 的 处 理 器 一 般 都 需要 共享 数据 ， 因 此 在 操作 共享 
数据 时 需要 进行 协调 ; 否则， 一 个 处 理 器 可 能 会 在 其 他 处 理 器 尚未 [i 
完成 对 共享 数据 的 操作 时 就 开始 使 用 该 数据 了 。 这 种 协调 称 为 同步 。 | 处 理 器 上 的 机 
(synchronization)， 如 第 2 章 中 所 述 。 当 单一 地 址 空间 支持 共享 时 ， | 入行 起 调 的 过。 
必须 提供 一 套 独立 的 同步 机 制 。 一 种 方法 是 为 每 个 共享 变量 使 用 锁 
(lock)。 一 次 只 能 有 一 个 处 理 器 获得 锁 ， 其 他 需要 该 共享 数据 的 处 
理 器 必须 等 待 ， 直 到 之 前 的 处 理 器 解锁 该 变量 为 止 。2.11 节 描 述 了 
ARMv8 指令 集结 构 中 与 锁 操作 相关 的 指令 。 


| 例题 | 一 个 共享 地 址 空间 的 简单 并 行 处 理 程序 。 
假设 我 们 需要 在 一 个 共享 内 存 的 多 处 理 器 计算 机 上 对 64 000 个 数据 求 和 ， 假 设 该 计算 

机 具有 统一 的 存储 器 访问 时 间 ， 处 理 器 数量 为 64。 

| 答案 | 第 一 步 是 保证 每 个 处 理 器 的 负载 是 均衡 的 ， 因 此 我 们 将 这 组 数 分 成 相同 大 小 的 子 集 。 

由 于 该 机 器 具有 单一 存储 器 空间 ， 因 此 我 们 不 把 这 些 子 集 分 配 到 不 同 的 存储 器 空间 上 ， 而 是 

只 给 每 个 处 理 器 分 配 不 同 的 起 始 地 址 。 用 Pn 表示 不 同 处 理 器 ， 编 号 在 0 ~ 63 之 间 。 所 有 处 

理 器 通过 运行 一 个 对 子 集中 的 数 进行 求 和 的 循环 来 启动 程序 : 


锁 : 一 种 同步 装置 ， 一 次 
仅 允 许 访问 一 个 处 理 器 的 
数据 - 








sum[Pn] = 0; 
for (i = 1000*pn; i < 1000*(Pn+1); i += 1) 
sum[Pn] += A[i]; /*sum the assigned areas*/ 


(注意 , 在 C 代码 中 i+=1 是 i=i+1 的 简写 形式 。) 

下 一 步 将 这 64 个 部 分 和 加 起 来 。 这 个 步骤 称 为 归 约 (reduction)， | 轨 约 ,处 理 一 个 教 据 结 构 
我 们 采用 分 而 治之 的 方法 完成 。 首 先 用 一 半 处 理 器 将 部 分 和 对 相 加 ， | 并 返回 单一 什 的 函数 。 
然后 用 四 分 之 一 处 理 器 将 新 的 部 分 和 对 相 加 ， 以 此 类 推 直到 获得 最 
终 的 和 。 图 6-8 展示 了 归 约 的 层次 结构 。 





图 6-8 自 底 向 上 对 每 个 处 理 器 结果 求 和 的 归 约 过 
程 的 最 后 四 级 。 对 于 所 有 编号 小 于 half 
的 处 理 器 ， 将 自己 产生 的 部 分 和 与 编号 
(i+half) 的 处 理 器 产生 的 部 分 和 相 加 


在 该 例 中 ,在 “消费 者 ”处 理 器 从 “生产 者 ”处 理 器 写 人 的 存储 位 置 读 取 结果 之 前 ， 两 个 
处 理 器 必须 同步 ; 否则， 消费 者 可 能 读 到 数据 的 旧 值 。 我 们 希望 每 个 处 理 器 都 有 自己 的 循环 计 
数 器 变量 i ， 因 此 必须 将 其 声明 为 “私有 ”变量 。 下 面 是 相应 的 代码 (half 也 是 私有 的 ); 





half = 64; /*64 processors in multiprocessor*/ 
do 
synch(); /*wait for partial sum completion*/ 
if (half%2 != 0 && Pn =—= 0) 
sum[0] += sum[half-1]; 
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/*Conditional Sum needed when half is 
odd; Processor0 gets missing element */ 
half = half/2; /*dividing line on who Sums */ 
if (Pn < half) sum[Pn] += sum[Pn+half]; 
while (half > 1); /*exit with final sum in Sum[0] */ 
全 


| 池 义 各 镶 国 长 久 以 来 人 们 对 并 行 编程 一 直 有 着 浓厚 的 兴 | openMP ;一 个 用 于 运行 
趣 ， 目 前 已 经 党 试 创建 了 上 百 种 并 行 编程 系统 。 一 个 有 局 限 性 但 | 在 UNIX 或 Microsoft 平 
是 很 常用 的 例子 就 是 OpenMP。OpenMP 只 是 一 个 应 用 程序 编程 接 | 台 上 的 C、Ct+ 或 Fortan 
口 (Application Programmer Interface，API)， 带 有 一 系列 编译 器 提 Fe es 
示 、 环 境 变 量 和 运行 时 库 例 程 ， 能 够 对 现 有 标准 编程 语言 进行 扩展 。 | 评 器 的 提示 、 一 个 库 和 一 
OpenMP 为 共享 内 存 多 处 理 器 提供 了 一 个 便携 的 、 可 扩展 的 简单 编 “| 些 运行 时 提示 。 
程 模型 。 其 最 初 目标 是 实现 循环 并 行 化 以 及 减少 执行 。 

大 部 分 C 语 言 编译 器 已 经 提供 了 对 OpenMP 的 支持 。 在 UNIX C 语言 编译 器 中 使 用 
OpenMP API 的 命令 如 下 : 


cc -fopenmp foo.c 


OpenMP 使 用 pragma 对 C 语言 进行 扩展 ， 类 似 C 宏 预 处 理 器 命令 # define 和 #include。 
将 处 理 器 数量 设置 为 我 们 所 需 的 64， 使 用 命令 : 


#define P 64 /* define a constant that we’l] use a few times */ 
#pragma omp parallel num threads(P) 


这 样 ， 运 行 时 库 必须 使 用 64 个 并 行 线程 。 
要 将 一 个 串 行 的 for 循环 变 为 一 个 并 行 的 for 循环 ， 并 且 要 把 任务 在 所 有 的 线程 间 等 分 ， 
我 们 只 需要 写 如 下 代码 (这 里 假设 sum 初始 为 0 ): 


#pragma omp parallel for 
Fur Pg a Bs Pi Pe PN ey 
for (i = 0; 1000*pn; i < 1000*(Pn+1); i += 1) 
sum[Pn] += A[i1]; /*sum the assigned areas*/ 


对 于 递归 ， 我 们 可 以 使 用 另 一 个 命令 告诉 OpenMP 什么 是 归 约 操作 符 以 及 用 什么 变量 
代替 归 约 运算 的 结果 。 


#pragma omp parallel for reduction(+ : FinalSum) 
For HT ow DE Bs 下 < 
FinalSum += sum[i]; /* Reduce to a single number */ 





注意 ,现在 要 靠 OpenMP 库 来 找到 有 效 的 代码 ,使 用 64 个 处 理 器 有 效 地 将 64 个 数据 相 加 。 

尽管 OpenMP 使 得 编写 并 行 代码 变 得 简单 ， 但 对 于 调试 并 不 是 很 有 帮助 ， 因 此 很 多 程 
序 员 使 用 比 OpenMP 更 复杂 的 并 行 编程 系统 ， 就 像 今天 有 很 多 程序 员 使 用 比 C 语言 效率 更 高 
的 编程 语言 一 样 。 

以 上 给 出 了 经 典 的 MIMD 硬件 和 软件 的 例子 ， 下 一 步 将 介绍 一 个 非常 不 同 的 MIMD 结 
构 ， 它 集成 了 不 同 的 设计 思路 并 对 并 行 编程 挑战 有 着 非常 不 同 的 见解 。 

睛 解 ;$ 一 些 作者 使 用 简写 SMP 表示 对 称 多 处 理 医 (symmetric multiprocessor)， 以 此 来 说 明 
从 处 理 器 到 存储 器 的 延迟 对 所 有 的 处 理 器 都 是 一 样 的 。 这 人 么 做 是 为 了 和 大 规模 NUMA 多 处 理 器 
做 区 别 ， 两 者 都 是 共享 单一 地 址 空间 。 由 于 集群 比 大 规模 NUMA 多 处 理 器 更 为 常见 ， 本 书 仍 使 用 
SMP 的 原始 含义 ( 即 共享 内 存 多 处 理 器 )， 并 用 它 来 区 别 于 使 用 多 个 地 址 空间 的 处 理 器 ， 例 如 集群 。 
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睛 钥 ! 除了 共享 物理 地 址 空间 之 外 ， 还 有 一 种 方法 是 使 用 独立 的 物理 地 址 空间 ， 但 共享 
同一 虚拟 地 址 空间 ， 由 操作 系统 来 处 理 通信 。 这 种 方法 已 经 有 过 尝试 ， 但 是 为 了 给 注重 性 能 
的 程序 员 提 供 一 个 实用 的 共享 内 存 的 抽象 ， 所 承担 的 开销 也 是 巨大 的 
md 








6.6 图 形 处 理 单元 


在 现 有 体系 结构 中 增加 SIMD 指令 的 最 初 理 由 是 ,许多 微 处 理 器 都 连接 到 PC 或 工作 站 
的 图 形 显示 设备 上 ， 因 此 图 形 显 示 处 理 的 时 间 所 占 比 例 越 来 越 大 。 因 此 ， 当 微 处 理 器 中 可 用 
晶体 管 的 数量 随 着 芍 桨 守 律 增加 时 ， 提 高 图 形 处 理 能 力 就 变 得 很 有 必要 。 
提高 图 形 处 理 能 力 的 主要 动力 是 计算 机 游戏 产业 ， 包 括 PC 和 专用 的 游戏 终端 (如 Sony 
PlayStation)。 快 速 增长 的 游戏 市 场 促使 许多 公司 增加 了 快速 图 形 硬件 方面 的 研发 ， 这 种 正 反 
馈 使 得 图 形 处 理 能 力 的 增长 超过 了 主流 微 处 理 器 通用 处 理 能 力 的 增长 。 

由 于 图 形 和 游戏 开发 与 微 处 理 器 开发 的 目标 不 同 ， 因 而 图 形 处 理 采 用 了 自己 的 一 套 处 
理 风格 和 术语 。 随 着 图 形 处 理 器 的 日 益 强 大 ， 以 图 形 处 理 单元 ( Graphics Processing Unit， 
GPU) 命名 ， 以 区 分 于 CPU。 

如 今 ， 人们 只 花 几 百 美元 就 能 买 到 带 有 上 百 个 并 行 浮 点 运算 单元 的 GPU， 高 性 能 计算 变 
得 更 为 容易 。 当 这 种 趋势 与 使 GPU 易于 编程 的 程序 设计 语言 相 结合 时 ，GPU 计算 得 到 了 快 
速 发 展 。 因 此 ， 现 在 很 多 科学 计算 和 多 媒体 应 用 的 编程 人 员 开 始 犹 瑰 是 使 用 GPU 还 是 CPU。 

(本 节 专 注 于 使 用 GPU 进行 计算 。 如 需 了 解 GPU 计算 如 何 与 传统 的 图 形 加 速 相 结合 ， 
请 参阅 附录 B。) 

下 面 是 GPU 与 CPU 的 几 个 主要 差别 ， 

e GPU 是 补充 CPU 的 加 速 器 ， 不 必 执 行 CPU 的 所 有 任务 。 这 种 定位 使 得 GPU 将 其 所 
有 资源 用 于 图 形 处 理 。 鉴 于 一 个 系统 中 既 有 GPU 又 有 CPU，GPU 可 以 对 某 些 任务 执 
行 效率 很 低 甚至 不 执行 ， 因 为 CPU 也 可 以 完成 这 些 任务 (如果 需要 )。 

se GPU 的 问题 规模 通常 为 几 百 MB 到 GB ， 而 不 是 几 百 GB 到 TB。 

这 些 差异 导致 了 体系 结构 的 不 同 : 

。 最 大 的 不 同 可 能 就 是 ，GPU 不 像 CPU 那样 依赖 多 级 cache 来 隐藏 访问 存储 器 的 长 延 
迟 ， 而 是 依赖 硬件 多 线程 (6.4 节 ) 来 隐藏 访 存 延 迟 。 也 就 是 说 ， 在 存储 器 请 求 和 数 
据 到 达 时 间 之 间 ，GPU 会 执行 数 以 百 计 甚至 数 以 千 计 的 与 该 请 求 无 关 的 线程 。 

e GPU 的 主 存 是 面向 带宽 而 不 是 面向 延迟 的 。 甚 至 有 面向 GPU 的 特殊 图 形 DRAM 芯 
片 ， 相 对 于 面向 CPU 的 DRAM， 其 宽度 更 大 并 能 提供 更 高 的 带宽 。 此 外 ，GPU 的 存 
储 器 历来 都 比 传统 微 处 理 器 的 存储 器 小 。 在 2013 年 ，GPU 一 般 有 4 一 6GiB 的 存储 
器 或 者 更 少 ， 而 CPU 一 般 在 32 ~ 256GiB 之 间 。 最 后 需要 注意 的 是 ， 对 于 通用 计算 ， 
必须 将 CPU 存储 器 和 GPU 存储 器 之 间 的 数据 传输 时 间 包 含 进来 ， 因 为 GPU 是 一 个 
协 处 理 器 。 

e 考虑 到 依赖 多 线程 来 获得 良好 的 存储 器 带宽 ， 除 了 多 线程 ，GPU 还 可 以 容纳 很 多 并 
行 处 理 器 ( MIMD)。 因 此 ， 每 个 GPU 处 理 器 相 比 于 CPU 有 更 多 的 线程 ， 并 有 更 多 
的 处 理 器 。 

| 王 优 有 其 特攻 酬 尽管 GPU 是 面向 众多 应 用 程序 中 很 小 的 一 部 分 设计 的 ， 但 一 些 程序 
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员 希 望 能 以 某 种 形式 定义 他 们 的 应 用 ， 从 而 可 以 利用 GPU 潜在 的 高 性 能 。 在 厌倦 了 使 用 图 
形 API 和 语言 描述 问题 之 后 ， 他 们 开发 了 类 C 编程 语言 ， 可 以 直接 在 GPU 上 编程 。 其 中 一 
个 例子 就 是 NVIDIA 的 CUDA (Compute Unified Device Architecture)， 使 得 程序 员 能 够 编写 
运行 在 GPU 上 的 C 程序 (虽然 仍 有 一 些 限 制 )。 附 录 B 给 出 了 CUDA 代码 的 例子 。(OpenCL 
是 由 多 家 公司 发 起 并 开发 的 一 种 可 移植 的 编程 语言 ， 可 以 利用 CUDA 的 很 多 优势 。) 

NVIDIA 决定 将 所 有 形式 的 并 行 都 定义 为 CUDA 线程 。 使 用 这 种 最 底层 的 并 行 作为 纺 
程 原 语 ， 编 译 器 和 硬件 可 以 在 GPU 上 将 上 千 个 CUDA 线程 聚集 起 来 使 用 各 种 类 型 的 并 行 : 
多 线程 、MIMD、SIMD 和 指令 级 并 行 。 这 些 线程 被 聚集 成 块 ， 一 次 32 个 一 组 一 起 执行 。 
GPU 内 部 的 多 线程 处 理 器 执行 这 些 线程 块 ， 一 个 GPU 包含 8 ~ 32 个 这 种 多 线程 处 理 器 。 


6.6.1 NVIDIA GPU 体系 结构 简介 


我 们 使 用 NVIDIA 系统 作为 例子 ， 因 为 它们 是 GPU 体系 结构 的 代表 。 特 别 地 ,我 们 沿 
用 CUDA 并 行 编程 语言 中 的 术语 ， 并 使 用 Fermi? 体 系 结构 作为 例子 。 

与 向 量 体 系 结构 一 样 ，GPU 只 对 数据 级 并 行 问题 效果 较 好 。 这 两 种 结构 都 有 聚集 - 分 
散 数据 传输 ， 并 且 GPU 处 理 器 甚至 比 向 量 处 理 器 有 更 多 的 寄存 器 。 与 大 多 数 向 量 体 系 结构 
不 同 ，GPU 也 依赖 于 单个 多 线程 SIMD 处 理 器 中 的 硬件 多 线程 以 隐藏 访 存 延 迟 ( 见 6.4 节 )。 

多 线程 SIMD 处 理 器 与 向 量 处 理 器 类 似 ， 但 是 前 者 有 很 多 并 行 功能 单元 ， 而 不 像 后 者 只 
有 少数 高 度 流水 化 的 功能 单元 。 

如 前 所 述 ，GPU 包含 多 线程 SIMD 处 理 器 的 集合 ; 也 就 是 说 ，GPU 是 一 个 由 多 个 多 线 
程 SIMD 处 理 器 组 成 的 MIMD 处 理 器 。 例 如 ，NVIDIA 的 Fermi 结构 有 四 种 不 同 的 实现 ， 根 
据 价 格 的 不 同 分 别 有 7、11、14 或 15 个 多 线程 SIMD 处 理 器 。 为 了 在 含有 不 同 数量 多 线程 
SIMD 处 理 器 的 GPU 上 实现 透明 的 可 扩展 性 ， 线 程 块 调度 器 这 一 硬件 将 线程 块 分 配给 多 线程 
SIMD 处 理 器 。 图 6-9 给 出 了 简化 的 多 线程 SIMD 处 理 器 的 模块 图 。 




















































































SIMD 

通道 ( 线 

程 处 理 器) 
寄存 器 | 寄存 器 | 寄存 名 | 寄存 甸 | 寄存 器 | 寄存 器 | 寄存 名 寄存 器 | 寄存 器 | 寄存 器 | 寄存 器 | 寄存 器 | 寄存 器 | 寄存 器 
1Kx32 |1Kx32 | IKx32 | 1Kx32 |1Kx32 | TKx32 | 1Kx32 | 1Kx32 | 1Kx32 | Kx32 | 1Kx32 | 1Kx32 | 1Kx32 | 1Kx32 | IKx32 | 1Kx32 
存 取 | 存 取 | 存 取 | 存 取 | 存 取 | 存 取 | 存 取 存 取 | 存 取 | 存 取 | 存 取 
单元 | 单元 | 单元 | 单元 | 单元 | 单元 | 单元 单元 | 单元 

地 址 合并 单元 | 互联 网 络 | 
t t 和 
局 部 存储 器 ，64 KiB | 
图 6-9 多 线程 SIMD 处 理 器 数据 通路 的 简化 模块 图 。 图 中 有 16 个 SIMD 通道 。SIMD 线程 调度 器 
有 很 多 相互 独立 的 SIMD 线程 ， 通 过 选择 而 运行 在 该 处 理 器 上 
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再 往 下 深入 一 层 ,硬件 产生 、 管 理 、 调 度 并 执行 的 机 器 目标 代码 是 一 个 由 SIMD 指令 组 
成 的 线程 ， 也 称 为 SIMD 线程 。 这 是 一 个 传统 意义 上 的 线程 ， 但 是 包含 互 斥 的 SIMD 指令 。 
这 些 SIMD 线程 有 自己 的 程序 计数 器 并 运行 在 一 个 多 线程 SIMD 处 理 器 上 。SIMD 线程 调度 
器 含有 一 个 控制 器 ， 用 以 确定 哪些 SIMD 指令 线程 已 经 准备 就 绪 并 可 以 执行 ， 它 将 这 些 线程 
发 送 给 分 派 单元 ， 然 后 分 派 到 多 线程 SIMD 处 理 器 上 执行 。 这 个 调度 器 同 传统 多 线程 处 理 器 
中 的 硬件 线程 调度 器 ( 见 6.4 节 ) 一 样 ， 但 调度 的 是 SIMD 指令 。 因此 ，GPU 硬件 有 两 层 硬 
件 调度 器 : 

e 线程 块 调度 器 (thread block scheduler) 将 线程 块 分 配 到 多 线程 SIMD 处 理 器 上 。 

e 当 SIMD 线程 准备 就 绪 时 ，SIMD 处 理 器 内 部 的 SIMD 线程 调度 器 进行 调度 。 

这 些 线程 的 SIMD 指令 为 32 位 宽 ， 所 以 每 个 SIMD 指令 线程 都 会 对 32 个 元 素 进行 计 
算 。 由 于 线程 是 由 SIMD 指令 组 成 的 ，SIMD 处 理 器 必须 有 并 行 功能 单元 来 执行 这 些 操作 。 
我 们 称 之 为 SIMD 通道 (lane)， 这 与 6.3 节 的 向 量 通道 非常 相似 。 

评 往 根据 GPU 版 本 的 不 同 ， 每 个 SIMD 处 理 器 中 的 通道 数量 也 有 所 不 同 。 对 于 
Fermi， 每 个 32 位 的 SIMD 指令 线程 被 映射 到 16 个 SIMD 通道 上 。 所 以 一 个 SIMD 指令 线 
程 中 的 每 条 指令 需要 两 个 时 钟 周 期 来 完成 。SIMD 指令 的 每 个 线程 都 在 锁 步骤 中 执行 。 继 续 
将 SIMD 处 理 器 比 作 一 个 向 量 处 理 器 ， 我 们 可 以 说 它 有 16 个 通道 ， 并 且 向 量 长 度 为 32。 这 
种 又 宽 又 浅 的 特性 正 是 我 们 使 用 术语 SIMD 处 理 器 而 不 是 向 量 处 理 器 的 原因 所 在 ， 这 样 更 为 
直观 。 

根据 定义 ，SIMD 指令 的 线程 间 是 相互 独立 的 ，SIMD 线程 调度 器 可 以 挑选 任何 准备 就 
绪 的 SIMD 指令 线程 执行 ， 不 必 一 定 要 使 用 单个 线程 中 顺序 的 下 一 条 SIMD 指令 。 因 此 ,车 
使 用 6.4 节 中 的 术语 ， 这 里 使 用 的 是 细 粒 度 多 线程 。 

为 了 保存 这 些 数据 元 素 ，Fermi SIMD 处 理 器 有 多 达 32 768 个 32 位 寄存 器 。 就 像 向 量 
处 理 器 一 样 ， 这 些 寄存 器 在 向 量 通道 (或 称 为 SIMD 通道 ) 上 进行 逻辑 划分 。 每 个 SIMD 线 
程 最 多 64 个 害 存 器 ， 所 以 可 以 认为 一 个 SIMD 线程 有 最 多 64 个 向 量 寄存 器 ， 且 每 个 向 量 寄 
存 器 有 32 个 元 素 ， 每 个 元 素 32 位 宽 。 

由 于 Fermi 有 16 个 SIMD 通道 ， 因 此 每 个 包含 2048 个 寄存 器 。 每 个 CUDA 线程 获得 
每 个 向 量 寄存 器 中 的 一 个 元 素 。 注 意 ，CUDA 线程 只 是 对 SIMD 指令 线程 的 纵向 切 分 ， 对 应 
于 一 个 SIMD 通道 执行 的 一 个 元 素 。 注 意 ，CUDA 线程 与 POSIX 线程 非常 不 同 ， 因 为 不 能 
在 一 个 CUDA 线程 中 进行 随意 的 系统 调用 和 同步 操作 。 


6.6.2 NVIDIA GPU 存储 结构 


图 6-10 展示 了 NVIDIA GPU 的 存储 结构 。 我 们 将 每 个 多 线程 SIMD 处 理 器 的 片上 存储 
器 称 为 本 地 / 局 部 存储 器 (local memory)， 被 一 个 多 线程 SIMD 处 理 器 中 的 多 个 SIMD 通道 
共享 ,但 不 在 多 个 多 线程 SIMD 处 理 器 之 间 共 享 。 我 们 称 整个 GPU 和 所 有 线程 块 共享 的 片 
外 存储 器 为 GPU 存储 器 (GPU memory)- 

与 依赖 大 容量 cache 来 保存 整个 应 用 程序 的 工作 集 不 同 ，GPU 通常 使 用 较 小 的 流 cache 
以 及 大 量 多 线程 SIMD 指令 线程 来 隐藏 访问 DRAM 的 长 延迟 ， 因 为 这 些 工 作 集 通常 为 上 百 
MB。 因 此 ， 这 些 数据 无 法 在 一 个 多 核 处 理 器 的 最 后 一 级 cache 中 放下 -。 考虑 到 使 用 硬件 多 
线程 来 隐藏 DRAM 延迟 ， 处 理 器 系统 中 用 于 cache 的 芯片 面积 被 用 于 实现 计算 资源 和 大 量 
奇 存 器 (用 于 保存 很 多 SIMD 指令 线程 的 状态 ) 。 
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图 6-10 GPU 存储 器 结构 。GPU 存储 吕 被 向 量化 的 循环 所 共享 。 “ 
线程 块 中 的 所 有 SIMD 指令 线程 共享 局 部 存储 器 


畏 饥 尽管 隐藏 访 存 延迟 是 基本 的 原则 ， 但 最 新 的 GPU 和 向 量 处 理 器 都 增加 了 cache。 
例如 ， 最 近 的 Fermi 结构 增加 了 cache， 但 它们 被 认为 是 带宽 滤波 器 ， 以 减少 对 GPU 内 存 的 
需求 ， 或 者 作为 少数 变量 ( 丐 迟 不 能 被 多 线程 隐藏 ) 的 加 速 器 。 用 于 栈 帧 、 函 数 调 用 以 及 寄 
存 器 道 出 的 局 部 存储 器 可 以 与 cache 很 好 地 匹配 ， 因 为 在 函数 调用 时 延迟 很 重要 。cache 也 
能 够 减少 能 耗 ， 因 为 访问 片上 cache 要 比 访问 多 个 片 外 DRAM 能 耗 少 得 多 。 


6.6.3 正确 理解 GPU 


在 高 层次 上 ， 具 有 SIMD 指令 扩展 的 多 核 计算 机 的 确 与 GPU 有 一 些 共同 点 。 图 6-11 总 
结 了 两 者 的 相似 点 与 不 同 点 。 两 者 都 是 MIMD,， 使 用 多 个 SIMD 通道 ,但 GPU 有 更 多 的 处 
理 器 和 通道 数 。 两 者 都 是 通过 使 用 硬件 多 线程 来 提高 处 理 器 的 利用 率 ， 但 GPU 的 硬件 支持 
更 多 的 线程 。 两 者 都 使 用 cache， 但 GPU 使 用 容量 更 小 的 流 cache， 而 多 核 计 算 机 使 用 大 的 
多 级 cache (以 试图 将 整个 工作 集 都 放 进去 ) 。 两 者 都 使 用 64 位 地 址 空间 ， 但 GPU 的 物理 主 
存 小 很 多 。 虽 然 GPU 支持 页 级 的 存储 保护 ， 但 还 不 支持 请 求 页 面 调度 。 

SIMD 处 理 器 和 向 量 处 理 器 也 有 相似 之 处 。GPU 中 的 多 个 SIMD 处 理 器 像 独 立 的 MIMD 
核 一 样 工作 ， 就 像 很 多 向 量 计算 机 有 多 个 向 量 处 理 器 一 样 。 故 可 以 将 Fermi GTX 580 视 为 
一 个 对 多 线程 提供 硬件 支持 的 16 核 机 器 ， 其 中 每 个 核 含有 16 个 通道 。 最 大 的 区 别 在 于 多 线 
程 ， 多 线程 对 于 GPU 是 最 基本 的 概念 ， 而 在 大 多 数 向 量 处 理 器 中 却 不 存在 。 

GPU 和 CPU 在 计算 机 体系 结构 发 展 史上 没有 相同 的 “祖先 "; 没有 一 种 过 渡 环 节能 解释 
这 种 现象 。 这 种 不 同 寻常 的 继承 关系 ， 使 得 GPU 并 没有 使 用 计算 机 体系 结构 领域 中 常用 的 
术语 ， 这 让 人 们 开始 对 GPU 是 什么 以 及 GPU 是 如 何 工 作 的 产生 困惑 。 为 了 解决 这 种 混淆， 
图 6-12 (从 左 到 右 ) 列 出 了 本 节 使 用 的 更 具有 描述 性 的 术语 ， 首 先是 主流 计算 中 最 接近 的 
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术语 ， 然 后 是 NVIDIA GPU 官方 术语 (如 果 你 感 兴趣 )， 最 后 是 对 该 术语 的 简单 解释 。 这 种 
见 


“GPU 罗 塞 塔 石 ”可 以 将 本 节 的 内 容 和 想法 与 更 传统 的 GPU 描述 ( 


附录 B) 联系 起 来 。 






































合用 SiMD 的 多 核 

SIMD 处 理 器 4~8 8~16 
SIMD 通 道 /处 理 器 2~4 8~16 
支持 SIMD 线 程 的 多 线程 硬件 2-4 16~ 32 
最 大 cache 容 量 8MiB 0.75MiB 
存储 器 地 址 大 小 64 位 64 位 
主 存 容量 8-256GiB 4-6GiB 
页 面 级 存储 保护 是 是 
请 求 页 面 调度 是 否 
cache 一 致 性 是 否 











图 6-11 带 有 多 媒体 SIMD 扩展 的 多 核 处 理 器 与 最 近 的 GPU 间 的 相似 点 与 不 同 点 
























































EE 在 GPU 上 执行 的 一 个 可 向 量化 循环 ， 由 一 个 或 多 个 可 
可 向 量化 循环 | 可 向 量化 循环 | 网 格 | 并行 执行 的 线程 块 ( 向 量化 的 任 环 体 ) 组 成 
在 SIMD 多 线程 处 理 器 上 执行 的 向 量化 的 循环 ， 册 一 个 
程序 | 让 是 (| 颁 化 的 | 。 线程 块 | 或 多 个 SIMD 指 人 线程 组 成。 这 些 线程 通过 局 部 存储 
抽象 | 。 焦 环 体 。 | 向 量化 循环 休 dt 
- SIMD 指 人 线程 的 二 直 切 则 ， 对 应 于 一 个 SIMD 通 放 玉 
SIMP 邓 道 。 | 标量 循环 的 | 。 CUDA 线 程 | 行 的 一 个 元 素 。 结 果 的 保存 取决 于 屏蔽 寄存 器 以 及 预测 
操作 序列 | 。 一 次 从 代 人 
SIMD 指 令 的 一 个 传统 线程 ， 仅 包含 在 SIMD 多 线程 处 理 器 上 执行 的 
机 各 | 一 个 线程 | 向量 指 人 线程 | 。 Warp 。 |siwo 指 令 。 根 据 每 个 元 表 失 玛 存储 结果 
代码 | siIMp 指 令 “| 向 量 指令 PTX 指 令 。 | “ 横 跨 多 个 SIMD 通 道 执行 的 一 个 SIMD 指 令 
起 SMD | 【多吉 程 】 | 并 风光 从 十 呈 | 一 个 多 吕 宇 SND 处 更 溃 执行 SND 朱 令 的 线程， 下 立 
处 理 器 。 | 向 量 处 理 器 | 于 其 他 SIMD 处 理 器 
s 千 光 【6 名】 | 分 配 多 个 线程 志 (向 量化 的 任 环 到 多 线程 SMD 处 理 
下 | 全 各 | 标量 处 路 “85 | 
硬件 调度 并 发 射 5MD 指 令 线程 ( 当 这 些 线程 准备 好 执行 
SIMD 线 程 | 多 线程 CFU 中 | Waip 调 度 器 “| 时 ) 的 硬件 单元 ， 包 括 一 个 记分 牌 ， 用 于 追 除 SIMD 线 
调度 器。 | 的 线程 调度 器 
程 的 执行 
3 : 一 个 SIMD 通 道 ， 在 单个 元 素 上 执行 一 个 SIVD 指 信 的 
SIMD 通 道 向 量 通道 线程 处 理 器 线程 ， 根 据 掩 码 存储 结果 
GPU 存 傅 器 | 全 局 丰 信 器 “| 全 局 存 信 器 | GPU 中 所 有 多 线程 IMD 处理 器 均 可 访问 的 ORAM 存储器 
存储 器 一 个 多 线程 SIMD 处 理 器 的 本 地 快速 SRAM 存 储 器 ， 其 
5 | 本 地 存储 器 ”| 本 地 存储 器 | 共享 存储器 | 化 人 4 二 关公 站 
SIMD 通 道 ”| ”向量 通道 ”| 线程 处 还 器 | 单个 SIMD 通 这 中 在 整个 线程 块 (向 量化 的 各 环 体 上 
寄存 器 寄存 匀 寄存 器 。 | 分配 的 寄存 器 


图 6-12 GPU 术语 的 快速 介绍 。 第 一 列 给 出 硬件 术语 。12 个 术语 被 分 成 4 组 。 从 上 到 下 为 ; 
程序 抽象 、 机 器 目标 代码 ， 处 理 硬件 和 存储 器 硬件 ” 


虽然 GPU 正在 向 主流 计算 进军 , 但 并 未 放弃 在 图 形 加 速 方面 的 发 展 。 由 于 有 很 多 硬件 


回 图 中 的 通道 (lane) 可 以 理解 为 执行 单元 . 一 一 译 者 注 
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是 为 了 加 速 图 形 处 理 的 因此， 假定 硬件 可 以 很 好 地 进行 图 形 处 理 ， 那么 当 架 构 师 开始 考虑 
如 何 扩展 GPU 的 性 能 并 为 更 多 类 型 的 应 用 服务 时 ，GPU 设计 就 更 有 意义 。 

本 节 给 出 了 两 种 共享 地 址 空间 的 MIMD 类 型 ， 下 节 将 介绍 并 行 处 理 器 ， 其 中 每 个 处 理 
器 都 有 自己 独立 的 地 址 空间 ， 这 会 使 构建 更 大 型 的 系统 变 得 更 简单 。 人 们 每 天 使 用 的 互联 网 
服务 就 是 依靠 这 些 大 规模 系统 工作 的 。 

睛 毅 尽管 GPU 引入 时 和 CPU 间 有 独立 的 内 存 空间 ， 但 AMD 和 Intel 都 宣称 已 经 有 可 
以 组 合 GPU 和 CPU 以 共享 一 个 内 存 的 “混合 ”产品 。 对 于 这 种 混合 结构 来 说 ， 挑 战 就 是 如 
何 维护 高 存储 带宽 ， 这 也 是 GPU 的 基本 问题 。 








6.7 集群、 仓储 式 计算 机 和 其 他 消息 传递 多 处 理 器 
对 处 理 器 来 说 ， 共 享 地 址 空间 的 另 一 种 方法 是 每 个 处 理 器 都 ”| 消息 传递 : 通过 显 式 发 送 
有 自己 私有 的 物理 地 址 空间 。 图 6-13 给 出 了 具有 多 个 私有 地 址 空 “| 和 接收 信息 的 方式 在 多 个 
间 的 多 处 理 器 的 典型 组 成 。 这 种 多 处 理 器 必须 通过 显 式 的 消息 传递 | 站 理 器 问 进 行 通 信 。 
(message passing) 进行 通信 ， 传 统 上 也 把 这 类 计算 机 称 为 消息 传递 ”| 发 送 消息 例 程 ， 具 有 私有 
计算 机 。 系 统 提供 发 送 消 息 例 程 ( send message routine) 和 接收 消息 “| 存储 器 的 机 器 中 一 个 处 理 
例 程 ( receive message routine)， 通 过 消息 传递 协调 工作 ， 因 为 发 送 和 
处 理 器 知道 何 时 发 送 消息 ， 接 收 处 理 器 也 知道 消息 何 时 到 达 。 如 果 
发 送 者 需要 确认 消息 已 经 送 达 ， 那 么 接收 处 理 器 可 以 向 发 送 者 返回 | 接收 消息 例 程 :， 具有 私有 
确认 消息 。 存储 器 的 机 器 中 一 个 处 理 
人 们 曾经 党 试 过 基于 高 性 能 消息 传递 网 络 构建 大 规模 计算 机 ， | 可 可 和 本 和 二 他 人 生生 
这 确实 比 使 用 局 域 网 构建 的 集群 通信 性 能 更 好 。 事实 上 ， 现 今 很 多 
超级 计算 机 使 用 自己 的 网 络 。 但 问题 是 这 要 比 局 域 网 (如 以 太 网 ) 成 本 更 高 。 目 前 除 高 性 能 
计算 之 外 ， 只 有 很 少 的 应 用 程序 证 明 有 更 高 的 通信 性 能 ， 而 成 本 也 要 高 得 多 。 





















































处 理 器 处 理 器 | 处 理 器 
cache cache cache 
存储 器 存储 器 存 情 器 
* + + 
! ， ER 
| 互联 网 络 
图 6-13 ”具有 多 个 私有 地 址 空间 的 多 处 理 器 的 组 成 ， 传 统 上 称 为 消息 传递 多 处 理 器 。 与 图 6-7 中 的 


SMP 不 同 ， 互 联网 络 不 在 cache 和 存储 器 之 间 ， 而 在 处 理 器 - 存储 器 的 节点 之 间 


| 汪 镍 灌 次 位 搂 印 相 比 于 cache 一 致 性 的 共享 内 存 ， 依 赖 于 消息 传递 机 制 的 计算 机 对 于 
硬件 设计 者 来 说 更 容易 构建 ( 见 5.8 节 )。 这 对 于 编程 人 员 来 说 也 有 好 处 ， 通 信 都 是 显 式 的 ， 
这 意味 着 相 比 于 cache 一 致 性 共享 内 存 计算 机 的 隐 式 通信 ， 其 性 能 方面 的 意外 更 少 。 对 于 纺 
程 人 员 而 言 ， 其 缺点 是 将 一 个 顺序 程序 移植 到 消息 传递 机 制 的 计算 机 上 更 困难 ， 因 为 所 有 的 
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通信 都 必须 提前 识别 ， 否 则 程序 就 不 会 工作 。cache 一 致 性 共享 内 存 允许 硬件 指明 哪些 数据 
需要 进行 通信 ， 这 使 得 移植 更 容易 。 考 虑 到 隐 式 通信 的 优点 与 不 足 ， 关 于 哪 种 方式 是 获得 高 
性 能 的 最 佳 途径 尚 存在 分 足 ， 但 在 今天 的 市 场 上 却 并 没有 这 种 困惑 。 多 核 微 处 理 器 使 用 共享 
物理 内 存 机 制 进行 通信 ， 而 集群 的 节点 之 间 使 用 消息 传递 机 制 进行 通信 。 

一 些 并 行 应 用 程序 在 并 行 硬件 上 运行 良好 ， 与 该 硬件 提供 的 是 共 
享 地 址 机 制 还 是 消息 传递 机 制 无 关 。 特 别 的 ， 使 用 任务 级 并 行 和 通信 | 集群 : 在 标准 网 站 交接 机 
比较 少 的 应 用 程序 一 如 Web 搜索 、 邮 件 服务 器 和 文件 服务 器 一 一 不 “| 生 二 生生 作 全 是 和 
需要 共享 地 址 机 制 也 可 以 良好 运行 。 因 此， 集群 (cluster) 成 为 当今 基 | 这 gm 吧 
于 消息 传递 机 制 的 并 行 计算 机 最 普遍 使 用 的 例子 。 由 于 有 独立 的 存储 
器 ， 集 群 的 每 个 节点 都 运行 操作 系统 的 一 个 独立 的 副本 。 相 反 ， 微 处 理 器 内 部 的 核 在 芯片 上 通 
过 高 速 的 互联 网 络 相连 ， 而 多 个 芯片 共享 的 存储 系统 使 用 存储 互联 网 络 进行 通信 。 存储 互联 网 
络 具 有 更 高 的 带宽 和 更 低 的 延迟 ， 使 得 共享 内 存 多 处 理 器 有 更 好 的 通信 性 能 。 

从 并 行 编程 的 角度 看 ， 用 户 存储 器 中 独立 存储 器 的 缺点 成 为 系统 可 靠 性 ( 见 5.5 节 ) 的 
一 个 优点 。 由 于 集群 由 通过 局 域 网 连接 起 来 的 独立 计算 机 组 成 ， 所 以 相 比 于 共享 内 存 多 处 理 
器 ， 在 不 影响 系统 性 能 的 前 提 下 替换 一 个 计算 机 要 容易 得 多 。 从 根本 上 讲 ， 共 享 地 址 意味 着 
若 没有 操作 系统 的 工作 和 服务 器 的 硬件 设计 ， 将 一 个 处 理 器 隔离 并 进行 蔡 换 是 很 难 的 。 当 一 
个 服务 器 坏 掉 时 ， 集 群 很 容易 降级 ， 因 此 提高 了 国 查 狂 。 由 于 集群 上 的 软件 运行 在 每 个 计算 
机 上 的 本 地 操作 系统 的 顶层 ， 因 此 断 开 并 替换 一 个 计算 机 要 容易 得 多 。 








集群 是 由 多 个 计算 机 和 独立 可 扩展 的 互联 网 络 组 成 的 ， 这 种 隔离 使 得 扩展 系统 变 得 很 容 
易 ， 并 且 不 会 降低 运行 在 集群 项 层 的 应 用 的 性 能 。 

尽管 与 大 规模 共享 内 存 多 处 理 器 相 比 ， 集 群 的 通信 性 能 较 差 ， 但 低 成 本 、 高 可 用 性 和 快 
速 可 扩展 性 仍 使 集群 对 服务 互联 网 提供 商 具 有 吸引 力 。 上 亿 人 每 天 都 在 使 用 的 搜索 引擎 就 依 
赖 于 该 技术 。Amazon、Facebook 、Google、Microsoft 等 都 有 多 个 数据 中 心 ， 每 个 中 心 都 有 
成 千 上 万 个 服务 器 集群 。 显 然 ， 多 个 处 理 器 在 网 络 服务 公司 中 的 使 用 取得 了 巨大 的 成 功 。 


仓储 式 计算 机 


互联 网 服务 (如 上 面 提 到 的 那些 ) 需要 建造 新 的 建筑 、 电 力 系 | 任何 人 都 可 以 构建 一 个 快 
统 以 及 冷却 系统 (对 100 000 台 服 务 器 进行 冷却 )。 尽 管 它们 可 以 被 | 过 CPU， 诀 窃 是 建立 一 个 
归 类 为 大 型 集群 ， 但 其 体系 结构 和 操作 更 为 复杂 。 它 们 就 像 一 个 巨 。 | 类 半 的 系 名 

eymour Cray (超级 计算 机 

大 的 计算 机 ， 连 接 和 安放 50 000 一 100 000 台 服 务 器 ， 机房、 电力 | x) 
和 冷却 系统 、 服 务 器 以 及 互联 设备 需要 1.5 亿美 元 的 成 本 。 我 们 将 
他 们 归 为 一 类 新 的 计算 机 ， 称 为 仓储 式 计 算 机 (Warehouse-Scale Computer,，WSC)。 

& WSC 中 最 流行 的 批 处 理 架 构 是 MapReduce [ Dean,2008 ] 及 其 开源 的 
“本 生 兄 弟 ” Hadoop。 受 Lisp 中 同名 函数 的 启发 ，Map 首先 将 程序 员 提供 的 函数 应 用 到 每 个 
逻辑 输入 记录 上 。Map 运行 在 上 千 台 服务 器 上 ， 并 产生 键 - 值 对 (key-value pair) 的 一 个 中 
间 结 果 。Reduce 将 分 布 的 任务 的 输出 结果 收集 起 来 ， 并 使 用 另 一 个 程序 员 提供 的 函数 来 对 其 
进行 压缩 。 通 过 适当 的 软件 处 理 ， 这 两 部 分 可 以 高 度 并 行 化 并 且 易 于 理解 和 使 用 。 在 30 分 
钟 内 ， 编 程 新 手 就 可 以 在 上 千 台 服务 器 上 运行 MapReduce。 

例如 ，MapReduce 程序 要 计算 一 大 推 文档 中 每 个 单词 出 现 的 次 数 。 下 面 是 该 程序 的 一 
个 简化 版 本 ， 只 给 出 了 内 层 循环 ， 并 假设 在 一 个 文档 中 所 有 英文 单词 只 出 现 一 次 。 
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map(String key, String value): 


// key: document name 
// value: document contents 
for each word w in value: 
EmitIntermediate(w. “1"): // Produce list of all words 


reduce(String key, lIterator values): 


/1 
/1 


key: a word 
values: a list of counts 
int result = 0; 
for each v in values: 
result += ParseInt(v); // get integer from key-value pair 
Emit(AsString(result)); 


Map 函数 中 使 用 的 EmitIntermediate 函数 输出 文档 中 的 每 一 个 单词 以 及 值 “1”。 
然后 Reduce 函数 将 每 个 文档 中 每 个 词 的 所 有 值 加 起 来 ， 使 用 ParseInt() 函数 获得 每 个 词 在 所 
有 文档 中 出 现 的 次 数 。MapReduce 运行 时 环境 将 Map 任务 和 Reduce 任务 调度 到 WSC 中 的 
服务 器 上 。 

在 这 种 极端 的 规模 下 ， 需 要 在 电源 分 布 、 冷 却 、 监 控 和 操作 上 都 做 出 创新 ，WSC 可 以 算是 
20 世纪 70 年 代 的 超级 计算 机 的 后 代 一 一 这 使 得 Seymour Cray 成 为 当今 WSC 体系 结构 之 父 。 他 
的 超级 计算 机 可 以 解决 其 他 计算 机 无 法 解决 的 问题 但 是 太 过 昂贵 ， 只 有 少数 几 家 公司 有 能 力 购 
买 。 现在 WSC 的 目标 是 为 全 世界 提供 信息 技术 ， 而 不 是 专门 为 科学 家 和 工程 师 提供 高 性 能 计算 。 
因此 ， WS 在 今天 的 社会 中 扮演 着 比 Cray 类 统计 过 机 在 那个 年 代 更 加 复 要 的 角色 > 


i 个 考虑 是 ， 目 标 市 场 上 的 应 用 程序 是 否 只 有 能 在 
并 行 硬件 上 运行 的 足够 的 品 莓 性， 以 及 为 了 发 据 这 些 并 行 性 而 使 用 足够 多 的 硬件 是 
和 否 代价 过 高 。 但 WSC 架构 师 却 没有 这 方面 的 顾虑 。 首 先 ， 像 MapReduce 这 样 的 批 处 
理 程序 可 以 从 大 量 需要 独立 处 理 的 数据 集中 受益 ， 例 如 网 页 

抓 取 中 数 以 亿 计 的 网 页 。 其 次 ， 交 互 式 互联 网 服务 应 用 ， 也 

称 作 软 件 即 服务 ( Software as a Service，SaaS) , 可 以 从 数 以 
百 万 计 的 相互 独立 的 交互 式 互联 网 服务 用 户 中 受益 。 在 SaaS | 算 机 上 的 软件 ，SaaS 中 
中 。 读 和 写 之 间 的 依赖 关系 很 少 ， 所 以 Saas 基本 上 不 使 用 | 的 寺 件 是 还 行 在 还 程 站 
同步 操作 。 例 如 ， 查 找 操作 使 用 一 个 只 读 的 索引 ， 而 电子 邮 | 训 汪 全 训 语 天 
件 通常 读 和 写 独立 的 信息 。 我 们 将 这 种 简单 的 并 行 称 作 请 求 | 务 。Saas 客户 基于 使 用 情 
级 并 行 ， 因 为 很 多 独立 的 工作 可 以 自然 地 并 行 处 理 ， 所 以 只 ”| 况 而 非 所 有 权 情况 来 付费 。 
需要 很 少 的 通信 和 同步 操作 。 

操作 成 本 。 传 统 上 ， 服 务 器 架构 师 要 在 开销 预算 内 设计 系统 以 达到 峰值 性 能 ， 并 且 要 
考虑 能 耗 ， 确 保 不 会 超过 系统 的 冷却 能 力 。 他 们 经 常 忽略 服务 器 的 运营 开销 ， 假 定 和 
购买 成 本 相 比 ， 运 营 开 销 可 以 忽略 。WSC 有 更 长 的 寿命 一 一 建筑 、 电 气 和 冷却 基础 
设施 的 成 本 通常 在 十 年 或 更 长 时 间 内 摊 销 。 所 以 运营 成 本 (能 耗 、 电 源 分布 和 冷却 系 
统 ) 的 总 和 在 这 十 年 中 要 超过 WSC 价格 的 30%。 

规模 以 及 规模 带 来 的 机 遇 和 问题 。 要 建造 WSC， 你 必须 购买 100 000 台 服 务 器 以 及 
配套 设施 。WSC 的 内 部 如 此 庞大 ， 以 至 于 即使 只 有 少数 WSC， 你 也 会 得 到 一 定 的 
规模 经 济 。 这 种 规模 经 济 导致 了 云 计算 ( cloud computing) 的 出 现 ， 因 为 每 个 单元 更 
低 的 成 本 意味 着 云 计算 公司 可 以 用 比 用 户 自己 购买 这 些 服 务 更 低 的 价格 将 服务 出 租 
给 用 户 以 获得 利润 。 规 模 经 济 的 负面 影响 就 是 需要 解决 这 种 规模 下 的 故障 率 。 即 使 
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服务 器 有 着 高 达 25 年 (200 000 小 时 ) 的 平均 无 故障 时 间 (MTTF)，WSC 架构 师 也 
要 考虑 每 天 5 次 服务 器 失效 的 可 能 。5.15 节 提 到 了 Google 测试 得 到 的 年 均 磁 盘 失效 
率 (AFR) 为 2% 一 4%。 如 果 每 台 服务 器 有 4 个 磁盘 ， 并 且 它们 的 年 均 失效 率 为 2% 
那么 WSC 架构 师 必 须 每 小 时 都 发 现 一 次 磁盘 失效 。 因 此 ， 容 错 性 对 于 WSC 架构 师 
要 比 对 服务 器 架构 师 重 要 得 多 。 

WSC 带 来 的 规模 经 济 使 得 长 久 以 来 人 们 梦 麻 以 求 的 将 计算 变 成 一 种 设施 的 梦想 成 为 现 
实 。 云 计算 意味 着 任何 人 在 任何 地 方 ， 只 要 有 一 个 好 想法 、 一 个 商业 模式 以 及 一 张 信 用 卡 ， 
就 可 以 使 用 数 以 千 计 的 服务 器 向 全 世界 传播 自己 的 想法 。 当 然 ， 云 计算 的 发 展 也 有 一 些 严重 
的 障碍 ， 例 如 安全 、 隐 私 、 标 准 化 以 及 互联 网 带宽 的 增长 率 ， 但 是 我 们 可 以 预见 这 些 障碍 都 
会 被 解决 ， 因 而 WSC 和 云 计算 终 将 繁荣 起 来 。 

考虑 到 云 计算 的 增长 率 ，2012 年 亚马逊 宣布 每 天 都 会 增加 足够 的 新 服务 器 ， 支 持 亚 马 
逊 的 全 球 基础 设施 ， 增 加 量 相当 于 2003 年 亚马逊 的 所 有 服务 器 数量 ， 那 时 的 亚马逊 年 收入 
为 52 亿美 元 ， 拥 有 6000 名 员工 。 

现在 我 们 理解 了 消息 传递 机 制 多 处 理 器 的 重要 性 (特别 是 对 于 云 计 算 )， 接 下 来 要 介绍 
WSC 中 节点 的 互联 方法 。 归 功 于 项 深 媳 律 以 及 每 芯片 上 不 断 增加 的 核 数 ， 现 在 芯片 内 部 也 
需要 互联 网 络 ， 所 以 这 些 拓扑 结构 无 论 在 小 规模 还 是 大 规模 计算 机 上 都 很 重要 。 

陋 解 ; MapReduce 架构 在 Map 阶段 的 最 后 将 键 - 值 对 进行 移动 (shuffle) 和 分 类 (sort)， 
生成 所 有 共享 相同 关键 值 的 组 。 然 后 这 些 组 被 传递 到 Reduce 阶段 。 

| 哺 鳃 8 另 一 种 大 规模 计算 是 网 格 计 算 ( grid computing)， 其 计算 机 分 布 于 很 大 的 范围 ， 
运行 于 其 上 的 软件 必须 通过 长 距离 的 网 络 进行 通信 。 网 格 计 算 中 最 流行 和 最 独特 的 形式 由 
SETI@home 项 目 首创 。 若 数 以 百 万 计 的 计算 机 在 空闲 的 时 候 什么 都 不 做 ， 这 些 计算 机 就 可 
以 被 收集 起 来 并 得 到 充分 利用 ， 只 要 有 人 能 开发 一 个 软件 运行 在 这 些 计算 机 上 ， 并 将 任务 分 
成 独立 的 部 分 分 配给 这 些 计算 机 去 运行 。 最 早 的 一 个 例子 是 寻找 外 星 智慧 项 目 ( Search for 
ExtraTerrestrial Intelligence，SETI)，1999 年 在 加 州 大 学 伯克利 分 校 启动 。 超 过 200 个 国家 
的 500 万 计算 机 用 户 签署 了 SETI@home 项 目 ， 其 中 有 超过 50% 的 非 美 国 用 户 。 到 2011 年 
年 底 ，SETI@home 网 格 的 平均 性 能 为 3.5PetaFLOPS。 









6.8 多 处 理 器 网 络 拓扑 简介 

多 核 芯片 需要 通过 片上 网 络 将 各 个 核 连接 到 一 起 ， 而 集群 需要 通过 局 域 网 将 服务 器 连接 
到 一 起 。 本 节 讨 论 不 同 互联 网 络 拓扑 的 优点 与 缺点 。 

网 络 成 本 包括 开关 的 数量 、 每 个 开关 连接 到 网 络 上 的 链 路 数 、 每 条 链 路 的 宽度 (比特 数 ) 
以 及 网 络 映 射 到 芯片 时 链 路 的 长 度 。 例 如 ， 某 些 核 或 服务 器 可 能 是 相 邻 的 ， 而 其 他 的 可 能 在 
芯片 或 数据 中 心 的 另 一 端 。 网 络 性 能 也 是 多 方面 的 ， 包 括 : 在 一 个 无 负载 的 网 络 中 发 送 和 接 
收 消息 的 延迟 ， 以 给 定时 间 内 能 够 传输 的 最 大 消息 数 所 计算 的 吞吐 率 ， 由 网 络 的 一 部 分 竞争 
引起 的 延迟 ， 以 及 由 通信 模式 决定 的 可 变性 能 。 网 络 的 另 一 个 义务 是 容错 ， 因 为 系统 可 能 需 
要 在 一 些 部 件 受 损 的 情况 下 继续 工作 。 最后， 在 系统 能 耗 受 限 的 时 代 ， 不 同 组 织 的 能 效 可 能 
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胜 过 了 其 他 的 关注 点 。 

网 络 通常 绘制 为 图 形 形 式 ， 图 中 每 条 边 代 表 通 信 网 络 中 的 一 条 链 路 。 本 节 的 图 中 ， 处 
理 器 - 存储 器 节点 表示 为 一 个 黑色 方块 ， 开 关 表 示 为 一 个 灰色 圆 点 。 假 设 所 有 链 路 都 是 双向 
(bidirectional) 的 ; 也 就 是 说 ， 信 息 可 以 向 两 个 方向 流动 。 所 有 网 络 都 由 开关 (switch) 组 成 ， 
链接 到 处 理 器 - 存储 器 节点 和 其 他 开关 。 第 一 个 网 络 将 若干 节点 序列 连接 到 了 一 起 : 


本 


该 拓扑 称 为 环 (ring)。 由 于 一 些 节点 不 是 直接 连接 的 ， 因 此 一 些 信息 必须 在 中 间 节 点 间 跳 
步 ， 直 到 到 达 最 后 的 目标 节点 。 

和 总 线 (总 线 允 许 一 组 连 线 向 所 有 相连 的 节点 发 送 广播 ) 不 同 ， 环 可 以 同时 进行 多 个 传输 。 
因为 有 众多 的 拓扑 结构 可 以 选择 ， 所 以 需要 性 能 指标 来 区 分 这 些 设计 。 其 中 有 两 个 最 为 
常用 。 第 一 个 是 总 网 络 带 宽 ( network bandwidth)， 即 每 条 链 路 带宽 与 链 路 数量 的 乘积 ， 代 表 
了 峰值 带宽 。 对 于 上 面 的 环 网 络 , 车 有 PP 个 处 理 器 ， 那 么 总 网 络 带宽 就 是 一 条 链 路 带宽 的 P 
倍 ; 一 条 总 线 的 总 网 络 带宽 仅仅 是 该 总 线 的 带宽 。 

为 了 平衡 最 佳 带宽 的 情况 (不 只 评估 最 好 情况 下 的 带宽 )， 我 们 引入 一 个 接近 于 最 差 情况 的 
指标 : 对 分 带宽 ( bisection bandwidth)。 对 分 带宽 将 机 器 分 割 为 两 半 进 行 计算 ， 然 后 将 跨 分 割 线 
的 链 路 带宽 加 起 来 。 环 的 对 分 带宽 是 链 路 带宽 的 两 倍 ， 是 总 线 链 路 带宽 的 一 倍 。 如 果 一 条 链 路 
和 总 线 一 样 快 ， 那么 在 最 差 情 况 下 . 环 的 速度 是 总 线 速 度 的 两 倍 ， 最 好 情况 下 是 总 线 的 尸 倍 。 

由 于 有 些 网 络 拓扑 是 非 对 称 的 ， 因 此 在 切 分 网 络 时 会 产生 一 个 问题 ， 即 切 分 线 划 在 哪 
里 。 切 分 带宽 是 最 差 情况 下 的 度量 ， 因 此 答案 是 选择 会 导致 最 差 网 络 性 能 的 切 分 。 换 句 话 
说 ， 就 是 计算 所 有 可 能 的 对 分 带宽 ， 然 后 选择 最 小 的 作为 最 终结 果 。 之 所 以 选择 这 种 最 差 情 
况 ， 是 因为 并 行程 序 常常 受 通信 和 链 中 最 薄弱 链 路 的 限制 人 

环 的 另 一 极端 是 全 连接 网 络 ( fully connected network)， 其 中 每 网 络 传输 速度 的 峰值 ; 到 
个 处 理 器 与 其 他 处 理 器 之 间 都 有 一 条 双向 链 路 。 对 于 全 连接 网 络 ， | 可 以 指 单一 链 路 的 速度 ， 
总 网 络 带宽 是 Px (P-1)/2， 对 分 带宽 是 (P/2 ) >。 也 可 以 指 网 络 中 所 有 链 路 

然而 ， 全 连接 网 络 性 能 的 极 大 提升 却 被 急剧 增加 的 成 本 抵消 了 。 | 的 共同 传输 过度 
这 激励 工程 师 开 发 新 的 拓扑 结构 ， 使 其 介 于 环 的 成 本 和 全 连接 网 络 “| 对 分 带宽 : 多 处 理 器 中 两 
的 性 能 之 间 。 评 估 新 拓扑 是 否 成 功 ， 很 大 程度 上 依赖 于 计算 机 上 所 | 个 相等 部 分 之 间 的 带宽 ， 
运行 的 并 行程 序 负载 的 通信 特征 。 0 

虽然 已 经 公开 发 布 的 各 种 拓扑 结构 难以 计数 ， 但 只 有 少数 几 个 
已 被 用 于 商业 并 行 处 理 器 中 。 图 6-14 给 出 了 两 种 常见 的 拓扑 。 

除了 在 网 络 中 的 每 个 节点 上 都 放置 一 个 处 理 器 之 外 ， 也 可 以 在 
其 中 一 些 节 点 上 只 保留 开关 。 开 关 比 处 理 器 - 存储 器 - 开关 节点 小 ， 
因此 可 以 更 密集 地 放置 ， 进 而 缩短 距离 并 提高 性 能 。 这 样 的 网 络 通 
常 称 为 多 级 网 络 ( multistage network)， 因 为 消息 需要 经 过 多 级 传输 
才能 到 达 目 的 地 。 多 级 网 络 的 类 型 和 单 级 网 络 是 一 样 多 的 ， 图 6-15 
给 出 了 两 种 常见 的 多 级 结构 。 全 连接 网 络 或 交叉 开关 网 络 ( crossbar 
network) 允许 任何 节点 通过 网 络 中 的 一 次 传输 就 可 以 与 其 他 任何 节 
点 通信 -Omega 网 络 使 用 的 硬件 比 交 又 开关 网 络 少 (前 者 需要 2n 











全 连接 网 络 : 通过 在 每 个 
节点 之 间 提 供 专用 通信 链 
路 而 将 处 理 器 -存储 器 节 
点 连接 起 来 的 网 络 。 


多 级 网 络 : 每 个 节点 提供 
一 个 小 开关 的 网 络 


交叉 开关 网 络 : 任何 节点 
通过 一 次 传输 就 可 以 与 其 
他 任何 节点 通信 的 网 络 
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log 2n 个 开关 ， 后 者 需要 必 个 开关 ), 但 消息 之 间 可 能 会 发 生 冲 突 ， 这 取决 于 通信 模式 。 例 
如 , 图 6-15 中 的 Omega 网 络 在 从 P, 向 Ps 发 送信 息 的 同时 ， 不 能 从 Po 向 Ps 发 送信 息 。 





al 16 个 节点 的 2D 网 格 结构 b) 8 个 节点 的 n- 立 方 树 ( 由 于 8 一 23， 所 以 n=3) 

图 6-14 已 经 出 现在 商业 并 行 处 理 器 中 的 网 络 拓扑 。 其 中 灰色 圆 点 表示 开关 ， 黑 色 方 块 表示 处 理 器 - 存 
储 器 节点 。 尽 管 一 个 开关 可 以 有 多 条 链 路 ， 但 是 通常 只 有 一 条 连接 到 处 理 器 。 布 尔  - 立方 体 拓 
扑 是 一 个 使 用 "个 节点 构成 的 n 维 互 连 结构 ， 每 个 开关 需要 条 链 路 (加 上 一 条 处 理 器 链 路 )， 
因此 有 n 个 最 近 相 邻 节点 。 这 些 基本 拓扑 常常 会 补充 一 些 额外 链 路 ， 从 而 提高 性 能 和 可 靠 性 


















































































































































b) Omega 网 络 





c) Omega 网 络 开关 盒 
6-15 常见 的 八 节点 多 级 网 络 拓扑 。 图 中 的 开关 比 前 面 图 中 的 更 加 简单 ， 因 为 本 图 中 的 链 路 是 单 
向 的 ， 数 据 从 左边 进入 ， 从 右边 退出 。 图 e 中 的 开关 使 可 以 将 A 传送 到 C、 将 了 传送 到 D， 
或 将 B 传送 到 C、 将 A 传 送 到 D。 交 又 开关 使 用 妈 个 开关 ， 其 中 由 是 处 理 器 的 数量 ， 而 
Omega 网 络 需要 2n log 2n 个 大 的 开关 盒 ， 每 个 开关 逻辑 上 由 4 个 更 小 的 开关 组 成 。 在 这 种 情 
况 下 ， 交 叉 开 关 网 络 需要 64 个 开关 ， 而 Omega 网 络 需要 12 个 开关 盒 (或 48 个 开关 )。 但 交 
叉 开 关 网 络 可 以 支持 处 理 器 间 消 息 传递 的 任意 组 合 ， 而 Omega 网 络 却 不 能 
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网 络 拓扑 的 实现 


本 节 对 所 有 网 络 进行 简单 分 析 的 时 候 ， 忽 略 了 在 网 络 构建 时 需要 考虑 的 实际 因素 。 在 高 速 
时 钟 下 ， 每 条 链 路 的 距离 都会 影响 通信 的 成 本 一 一 一 般 来 说 ， 距 离 越 长 ， 在 高 速 时 钟 下 的 成 本 
越 大 。 对 于 较 短 的 距离 ， 更 容易 将 更 多 连 线 增加 到 链 路 中 ， 因 为 连 线 越 短 ， 驱 动 连 线 所 需要 的 
能 耗 越 少 。 较 短 的 连 线 也 比较 长 的 连 线 便宜 。 另 外 一 个 实际 限制 是 三 维 拓扑 图 必须 映射 到 芯片 
的 二 维 媒介 上 。 最 后 一 点 需要 考虑 的 是 能 耗 。 例 如 ， 能 耗 可 能 迫使 多 核 芯片 必须 采用 简单 网 格 
拓扑 。 总 之 ,在 黑板 上 夯 出 的 很 美的 拓扑 ， 在 使 用 硅 工 艺 或 数据 中 心 构造 时 可 能 是 不 切实 际 的 。 

现在 我 们 已 经 了 解 了 集群 的 重要 性 ， 并 且 看 到 了 可 以 将 它们 连接 起 来 的 拓扑 方法 ， 接 下 
来 我 们 要 看 一 看 网 络 与 处 理 器 的 软 硬 件 接口 。 


人 





6.9 与 外 界 通 信 : 集群 网 络 


本 节 内 容 在 本 书 配套 的 网 站 上 。 本 节 讲述 了 用 来 连接 集群 节点 的 网 络 硬件 和 软件 。 例 子 
中 采用 PCle 连接 到 计算 机 上 的 10Gb/s 的 以 太 网 。 这 个 例子 展示 了 软 硬 件 优化 如 何 提升 网 络 
的 性 能 ， 包 括 零 拷贝 消息 传递 、 用 户 空 间 通信 、 使 用 轮 询 机 制 代 替 IO 中 断 以 及 使 用 硬件 计 
算 校 验 总 和 - 尽管 例子 讲 的 是 互联 网 络 ， 但 本 节 介绍 的 这 些 技术 也 可 以 应 用 到 存储 控制 器 和 
其 他 1O 设备 上 。 

本 节 内 容 从 底层 详细 讲述 了 互联 网 络 的 性 能 ， 下 节 介 绍 如 何 用 更 多 高 层 的 程序 来 评测 各 
种 多 处 理 器 。 


6.10 ”多 处 理 器 基准 测试 程序 和 性 能 模型 


如 我 们 在 第 1 章 中 看 到 的 那样 ， 评 测 系统 一 直 是 一 个 敏感 的 话题 ， 因 为 这 是 判断 哪个 系 
统 更 好 的 一 种 高 度 直观 的 方式 。 测 试 结果 不 仅 影响 商业 系统 的 销售 ， 而 且 也 会 影响 这 些 系统 
设计 者 的 声誉 。 因 此 ， 所 有 参赛 者 都 想 赢得 比赛 ， 但 是 如 果 别 人 获胜 ， 他 们 也 希望 确认 获胜 
者 的 系统 确实 更 好 。 这 些 期 望 导致 测试 结果 不 是 (针对 测试 程序 ) 简单 的 工程 技巧 ， 而 应 能 
够 真正 促进 实际 应 用 程序 性 能 的 提高 。 

为 了 避免 可 能 的 作 次 ， 一 个 典型 的 原则 是 不 能 修改 基准 测试 程序 。 源 代码 和 数据 集 是 男 
定 的 ， 并且 只 有 唯一 的 正确 结果 。 违 反 原 则 会 导致 测试 结果 无 效 。 

很 多 多 处 理 器 基准 测试 程序 都 遵守 这 些 惯 例 。 一 个 共同 的 例外 是 允许 增加 问题 规模 ， 从 而 
可 以 在 具有 不 同 数量 处 理 器 的 系统 上 运行 基准 测试 程序 。 也 就 是 说 ， 很 多 基准 测试 程序 允许 弱 
比例 缩放 而 不 是 强 比例 缩放 ， 即 使 在 对 运行 不 同 问题 规模 的 程序 的 结果 进行 比较 时 也 要 小 心 。 

图 6-16 对 几 种 并 行 基准 测试 程序 进行 了 总 结 。 描 述 如 下 : 

e Linpack 是 一 组 线性 代数 例 程 ， 是 由 执行 高 斯 消 元 的 例 程 构成 的 基准 测试 程序 。3.5.6 节 

第 二 个 例题 中 的 DGEMM 例 程 是 Linpack 基准 测试 程序 源 代码 中 的 一 小 部 分 , 但 占用 
了 该 基准 测试 程序 大 部 分 的 执行 时 间 。 它 允许 弱 比例 缩放 ， 让 用 户 选 择 任何 规模 的 问 
题 。 此 外 ， 它 允许 使 用 者 以 几乎 任何 形式 和 任何 诸 言 重 写 Linpack， 只 要 能 计算 出 正确 
的 结果 并 对 给 定 的 规模 执行 相同 数量 的 浮 点 操作 。 每 隔 两 年 ，www:top500.org 会 公布 具 
有 最 快 Linpack 性 能 的 500 台 计算 机 。 排 名 第 一 的 被 媒体 认为 是 世界 上 最 快 的 计算 机 。 
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图 6-16 ”并行 基 准 测试 程序 实例 




















。 SPECrate 是 一 个 基于 SPEC CPU 基准 测试 程序 (如 SPEC CPU 2006， 见 第 1 章 ) 的 
吞吐 率 指标 。SPECrate 同时 运行 程序 的 很 多 副本 ， 而 不 是 报告 单个 程序 的 性 能 。 因 
此 ， 它 主要 测量 任务 级 并 行 ， 并 且 这 些 任务 之 间 没有 通信 。 运 行 的 程序 副本 数 是 不 受 

眼 制 的 ， 因 此 这 也 是 弱 比 例 缩放 的 一 种 形式 。 

e SPLASH 和 SPLASH 2 ( Stanford Parallel Applications for Shared Memory) 是 斯 坦 福 

大 学 研究 人 员 于 20 世纪 90 年 代 提 出 的 一 种 作用 类 似 于 SPEC CPU 基准 测试 集 的 并 行 

测试 程序 集 。 它 由 核心 程序 和 应 用 程序 构成 ， 许 多 都 来 自 高 性 能 计算 领域 。 尽 管 该 程 

序 有 两 组 数据 集 ， 但 仍 需要 强 比 例 缩放 。 

e NAS (NASA Advanced Supercomputing) 并 行 基准 测试 程序 是 20 世纪 90 年 代 以 来 多 
处 理 器 基准 测试 程序 的 另 一 尝试 ， 由 五 个 核心 程序 构成 ,来源 于 流体 力学 计算 。NAS 
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通过 定义 少数 几 个 数据 集 以 允许 弱 比 例 缩放 。 像 Linkpack 一 样 ， 这 些 基准 测试 程序 
可 以 重 写 , 但 要 求 编程 语言 只 能 使 用 C 或 Fortran。 
PARSEC (Princeton Application Repository for Shared Memory 
Computer) 基准 测试 程序 集 由 采用 Pthreads ( POSIX 线程 ) bg 
和 OpenMP ( Open MultiProcessing， 见 6.5 节 ) 的 多 线程 程 | 织 为 库 的 形式 。 
序 组 成 专注 于 新 兴 的 计算 领域 ， 由 九 个 应 用 程序 和 三 个 内 
核 组 成 。 其 中 八 个 依赖 数据 并 行 ， 三 个 依赖 流水 并 行 ， 另 外 一 个 依赖 非 结 构 化 并 行 。 
加 利 福 尼 亚 大 学 伯克利 分 校 的 研究 人 员 提 出 了 一 种 方法 。 他 们 确定 了 13 个 会 成 为 未 
来 应 用 的 设计 模式 。 一 些 框架 或 内 核实 现 了 这 些 设计 模式 ， 实 例 包 括 稀 朴 窍 阵 、 结 构 
化 网 格 、 有 限 状 态 机 、 映 射 归 约 和 图 遍历 等 。 通 过 将 定义 保持 在 高 级 别 层次 ， 他 们 和 希 
望 鼓励 在 系统 的 任何 层次 进行 创新 。 因 此 ， 具 有 最 快 稀 朴 矩阵 求解 的 系统 除了 使 用 新 
型 体系 结构 和 编译 器 之 外 ， 还 可 以 使 用 任何 数据 结构 、 算 法 和 编程 语言 。 

对 基准 测试 程序 的 这 种 约束 所 造成 的 负面 影响 是 “创新 ”主要 受 限 于 体系 结构 和 编译 器 。 
更 好 的 数据 结构 、 算 法 、 编 程 语言 等 通常 不 能 使 用 ， 内 为 这 可 能 会 产生 误导 的 结果 一 一 系统 
可 能 因为 其 他 原因 (例如 算法 ) 而 不 是 硬件 或 编译 器 的 原因 而 获得 更 高 性 能 。 

尽管 这 些 准则 在 计算 基础 相对 稳定 时 是 可 以 理解 的 一 一 就 像 上 世纪 90 年 代 和 这 十 年 前 
一 半 一 样 一 一 但 在 编程 变革 中 就 不 受 欢迎 了 。 为 了 变革 的 成 功 ,我 们 需要 鼓励 所 有 层次 上 的 
创新 。 


6.10.1 性 能 模型 


和 基准 测试 程序 相关 的 一 个 话题 就 是 性 能 模型 。 就 像 我 们 在 本 章 中 看 到 的 不 断 增加 的 体 
系 结构 多 样 性 一 一 多 线程 、SIMD 、GPU 一 一 如 果 我 们 有 一 个 简单 的 模型 来 分 析 不 同体 系 结 
构 的 性 能 ， 那 将 是 十 分 有 益 的 。 这 个 模型 不 需要 是 完美 的 ， 只 要 有 所 见地 就 行 。 

第 5 章 用 于 cache 性 能 评测 的 3C 模型 是 性 能 模型 的 一 个 实例 。 它 并 不 是 完美 的 性 能 模 
型 ， 因 为 忽略 了 一 些 潜在 的 重要 因素 ， 如 块 大 小 、 块 分 配 策略 和 块 替换 策略 。 并 且 ， 它 还 含 
有 一 些 怪异 的 地 方 。 例 如， 缺失 在 一 个 设计 中 产生 的 原因 可 能 是 容量 ,但 在 另 一 个 相同 大 小 
的 cache 中 可 能 是 因为 冲突 。 然 而 3C 模型 已 经 流行 了 25 年 ， 因 为 它 提供 了 深刻 理解 程序 行 
为 的 一 种 途径 ， 有 助 于 体系 结构 设计 者 和 程序 员 基于 模型 的 观察 来 改进 他 们 的 创新 。 

为 了 找到 这 样 一 个 并 行 计 算 机 的 模型 ， 让 我 们 从 小 的 核心 程序 开始 ， 就 像 图 6-16 中 的 
13 个 伯克利 设计 模式 一 样 。 尽 管 这 些 核心 程序 的 不 同 数据 类 型 有 许多 版 本 ， 但 是 浮 点 在 几 种 
实现 中 都 很 常见 。 因 此 ， 在 给 定 计算 机 上 的 峰值 浮 点 性 能 是 这 类 核心 程序 的 速度 瓶颈 。 对 于 
多 核 芯片 ， 峰 值 浮 点 性 能 是 芯片 上 所 有 处 理 器 核 峰值 性 能 的 总 和 。 如 果 系 统 中 包含 多 个 处 理 
器 ， 那 么 应 当 将 每 芯片 的 峰值 性 能 与 芯片 数量 相 乘 。 

内 存 系统 的 需求 可 以 通过 将 峰值 浮 点 性 能 除 以 每 个 字 节 访问 的 浮 点 运算 的 平均 数 来 估计 : 

浮 点 操作 数 / 秒 ER 
浮 点 操作 数 / 字 节 

存储 器 每 访问 一 字 节 所 包含 的 浮 点 操作 比例 称 作 算术 密度 “| 算术 密度 : 程序 中 的 浮 点 
(arithmetic intensity)。 它 的 计算 可 以 用 程序 中 总 的 浮 点 操作 数 除 | 操作 教 量 与 从 主 存 访问 的 
以 程序 执行 期 间 主 存 传输 的 数据 总 字 节 数 来 获得 。 图 6-17 给 出 了 | 字 节 教 的 比值 。 
图 6-16 中 几 种 伯克利 设计 模式 的 算术 密度 
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图 6-17 ”算术 密度 ， 即 程序 中 的 浮 点 操作 数 除 以 访问 主 存 的 字 节 数 [ Williams, Patterson, 2009 ]。 一 些 核心 
程序 的 算术 密度 与 问题 规模 成 比例 扩展 ， 如 笛 密 矩阵 ， 但 是 也 有 许多 核心 程序 ， 其 算术 强度 与 问 
题 大 小 无 关 。 对 于 前 者 ， 弱 比例 缩放 会 导致 不 同 的 结果 ， 因 为 其 对 存储 系统 的 需求 减少 了 很 多 














6.10.2 ”Roofline 模型 


该 简单 模型 将 浮 点 性 能 、 算 术 密度 和 存储 性 能 联系 在 一 个 二 维 图 中 [ williams，Water- 
man，Patterson，2009 ]。 峰 值 浮 点 性 能 可 以 在 上 面 提 到 的 硬件 规格 说 明 书 中 找到 。 这 里 所 考 
虚 的 核心 程序 的 工作 集 不 适合 使 用 cache， 因 此 峰值 存储 性 能 可 以 使 用 cache 后 面 的 存储 器 系 
统 来 定义 。 找 到 峰值 存储 性 能 的 一 种 方法 是 使 用 流 基准 测试 程序 ( 见 5.2.2 节 的 精 解 )。 

图 6-18 展示 了 这 一 模型 ， 该 模型 是 针对 一 台 计算 机 的 ， 而 不 是 针对 每 个 核心 程序 的 。 
纵 轴 表示 浮 点 性 能 ， 从 0.5 到 64.0GFLOP/s。 横 轴 表 示 算 术 密 度 ， 从 1/8 FLOP/DRAM 字 节 
到 16 FLOP/DRAM 字 节 。 注 意 该 图 采用 重 对 数 图 尺 。 


图 6-18 Roofline 模型 [ Williams, Waterman, 
Patterson, 2009 ]。 本 例 中 ， 峰 值 浮 
点 性 能 为 16GFLOP/s， 峰 值 存 储 带 
宽 为 16GB/s， 数 据 来 自流 基准 测试 
程序 (由 于 流 实际 上 是 4 次 测量 ， 因 
此 图 中 的 线 是 4 次 的 均值 )。 左 边 的 
垂直 虚线 代表 核心 程序 1， 其 计算 密 
度 为 0.5FLOP/byte。 由 于 存储 带宽 
的 限制 ， 其 在 Operon X2 上 不 超过 
8GFLOP/s。 右 边 的 垂直 虚线 代表 核 
心 程序 2， 计 算 密 度 为 4FLOP/byte， 
仅 限 于 计算 到 16GFLOP/s (这 些 数据 
基于 AMD Opteron X2 (版 本 F)， 使 
算术 密度 : FLOP/Byte 用 运行 在 双 插 槽 系统 中 的 2GHz 双核 ) 


对 给 定 的 核心 程序 ， 我 们 可 以 基于 算术 密度 在 X 轴 上 找到 一 个 点 。 如 果 画 一 条 垂直 线 通 
过 该 点 ， 那 么 核心 程序 在 该 计算 机 上 的 性 能 一 定 在 该 垂直 线 的 某 个 位 置 上 。 我 们 可 以 画 一 条 
水 平 线 显 示 该 计算 机 的 峰值 浮 点 性 能 。 显 然 ， 实 际 的 浮 点 性 能 不 会 超过 这 条 水 平 线 ， 因 为 这 
是 一 个 硬 界限 。 

如 何 画 出 峰值 存储 性 能 (单位 为 byte/s) ? 由 于 X 轴 是 FLOP/byte, Y 轴 是 FLOP/s， 故 
byte/s 只 是 图 中 一 条 45” 的 对 角 线 。 因 此 ,我 们 画 出 第 三 条 线 来 表示 对 于 给 定 的 算术 密度 
该 计算 机 存储 系统 所 能 支持 的 最 大 浮 点 性 能 。 我 们 可 以 用 下 面 的 公式 表示 该 界限 ， 以 便 在 

















可 获得 的 GFLOP/s 
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图 6-18 中 夯 出 该 线 : 
可 达到 的 GFLOP/s = Min (峰值 存储 带宽 x 算术 密度 ， 峰 值 浮 点 性 能 ) 

水 平 线 和 对 角 线 描 绘 出 这 个 简单 模型 的 名 称 并 指出 了 它 的 值 。 这 条 “屋顶 线 ”(Roofline) 
根据 其 算术 强度 设置 了 内 核 性 能 的 上 界 。 给 定 一 台 计 算 机 的 屋顶 线 后 ， 你 可 以 重复 地 使 用 
它 ， 因 为 它 不 会 随 核心 程序 的 不 同 而 变化 。 

如 果 我 们 认为 算术 强度 是 撞 在 屋顶 上 的 一 根 杆子 ， 那么 它 可 能 磁 到 屋顶 的 倾斜 部 分 ， 这 
意味 着 性 能 最 终 受 到 存储 带宽 的 限制 ， 或 者 碰 到 屋顶 的 平坦 部 分 ， 这 意味 着 性 能 在 计算 上 受 
限 。 在 图 6-18 中 ， 核 心 程序 1 是 前 者 的 例子 ， 而 核心 程序 2 属于 后 者 。 

注意 “冰点 ”(ridge point)， 即 对 角 线 和 水 平 线 相 交 的 点 ， 它 为 我 们 提供 了 一 些 有 趣 的 信 
息 。 如 果 该 点 过 于 靠 右 ， 那么 只 有 极 高 算术 密度 的 核心 程序 才能 获得 计算 机 的 最 大 性 能 。 如 
果 过 于 靠 左 ， 那 么 几乎 所 有 核心 程序 都 可 能 达到 最 大 性 能 。 


6.10.3 两 代 Opteron 的 比较 


四 核 的 AMD Opteron X4 ( Barcelona) 是 两 核 Opteron X2 的 后 续 版 本 。 为 了 简化 主板 设 
计 ，Opteron X4 使 用 了 相同 的 插 槽 ， 有 相同 的 DRAM 通道 ， 因 而 有 相同 的 峰值 存储 带宽 。 
除了 核 数 加 倍 外 ，Opteron X4 还 将 每 核 峰值 浮 点 性 能 提高 到 原来 的 两 倍 ，Opteron X4 核 每 时 
钟 周 期 可 发 射 两 条 浮 点 SSE2 指令 ， 而 Opteron X2 核 最 多 只 能 发 射 一 条 。 由 于 这 两 个 系统 时 
钟 频率 接近 一 一 Opteron X2 为 2.2GHz，Opteron X4 为 2.3GHz 一 一 因此 Opteron X4 的 峰值 
浮 点 性 能 是 Opteron X2 的 4 倍 ， 而 两 者 DRAM 带宽 完全 相同 。Opteron X4 还 有 2MiB 的 L3 
cache， 而 Opteron X2 没有 。 

图 6-19 比较 了 两 个 系统 的 Roofline 模型 。 正 如 我 们 所 期 望 的 那样 ， 次 点 向 右 移 动 ， 从 
Opteron X2 的 1 移 到 了 Opteron X4 的 5。 因 此 ， 为 了 看 到 下 一 代 Opteron 处 理 器 性 能 的 改 
进 ， 核 心 程序 的 算术 密度 必须 大 于 1， 或 者 工作 集 能 够 适合 Opteron X4 的 cache。 
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图 6-19 两 代 Opteron 的 Roofline 模型 。 
Opteron X2 的 屋顶 线 与 图 6-18 
中 相同 ， 使 用 黑色 绘制 ， 而 
Opteron X4 的 屋顶 线 使 用 灰色 
绘制 。Opteron X4 更 大 的 兰 点 

| 意味 着 在 Opteron X2 中 计算 受 

B11 2 4 8 16 限 的 核心 程序 在 Opteron X4 上 
实际 的 FLOP/Byte 可 能 是 存储 性 能 受 限 的 





























Roofline 模型 给 出 了 性 能 的 上 界 。 假 设 你 的 程序 远 远 低 于 该 上 界 ， 那 么 应 进行 哪些 优化 
呢 ? 顺 序 如 何 ? 
为 了 减少 计算 瓶颈 ， 下 面 的 两 种 优化 可 以 改进 几乎 任何 核心 程序 : 
日 浮 点 操作 混合 。 计 算 机 的 峰值 浮 点 性 能 通常 需要 相同 数量 的 几乎 同时 进行 的 加 法 和 乘 
法 运算 。 这 种 均衡 不 仅 是 因为 计算 机 支持 融合 的 乘 加 指令 ( 见 3.5.7 节 )， 也 因为 浮 点 
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单元 具有 相同 数量 的 浮 点 加 法 器 和 浮 点 乘法 器 。 最 佳 性 能 还 要 求 指令 组 合 的 很 大 一 部 
分 是 浮 点 运算 而 不 是 整数 指令 。 
。 提 高 指令 级 字符 并 应 用 SIMD。 对 当代 的 体系 结构 ， 最 高 性 能 在 每 个 时 钟 周期 取 指 、 执 
行 并 提交 3 一 4 条 指令 时 获得 ( 见 4.10 节 )。 这 一 目标 可 以 通过 由 编译 器 改进 代码 来 增加 
指令 级 并 行 实现 。 一 种 方法 是 循环 展开 ， 如 4.12 节 所 述 。 对 于 x86 体系 结构 ， 一 条 AVX 
指令 可 以 操作 4 个 双 精 度 操作 数 ， 因 此 应 该 尽 可 能 地 使 用 这 些 指令 ( 见 3.7 节 和 3.8 节 )。 
为 了 减少 存储 瓶颈 ， 下 面 两 种 优化 可 以 起 到 帮助 作用 : 
。 软件 预 取 。 通 常 ， 要 获得 最 高 性 能 需要 保持 很 多 存储 器 操作 一 直 运行 ， 通 过 执行 软件 
预 取 指令 来 芸 测 访 存 要 比 等 到 计算 需要 该 数据 时 才 进 行 访 存 容易 得 多 。 
。 内 存 关联 。 当 今 微 处 理 器 都 在 片 内 包含 了 内 存 控制 器 ， 从 而 提高 了 畏 驳 喘 江 次 结 
欧 的 性 能 。 如 果 系 统 中 含有 多 个 芯片 ， 就 意味 着 一 些 地 址 访问 本 地 芯片 的 DRAM 
而 其 他 地 址 需要 通过 芯片 互 连 才能 访问 其 他 芯片 的 DRAM (对 于 其 他 芯片 是 本 地 的 )。 
这 种 分 隔 导致 了 6.5 节 介 绍 的 非 统一 存储 访问 。 通 过 另 一 个 芯片 进行 访 存 会 降低 性 
能 。 第 二 种 优化 方法 是 尝试 分 配 数据 和 线程 ， 以 将 该 数据 操作 到 同一 存储 器 - 处 理 器 
对 ， 这 样 处 理 器 儿 乎 不 会 访问 其 他 芯片 上 的 存储 器 。 
Roofline 模型 可 以 帮助 我 们 决定 选用 哪 一 种 优化 ， 以 及 优化 的 实施 顺序 。 我 们 可 以 把 每 
一 种 优化 视 为 适当 屋顶 线 下 面 的 一 层 “ 天 花 板 "， 这 意味 着 在 没有 实施 相应 优化 的 情况 下 不 
能 突破 天 花 板 。 
计算 犀 顶 线 可 以 从 手册 中 找到 ， 而 存储 屋顶 线 可 以 通过 运行 流 基准 测试 程序 获得 。 计 算 天 
花 板 (如 浮 点 均衡 ) 也 可 从 该 计算 机 的 手册 中 找到 ， 存 储 天 花 板 (如 存储 器 关联 ) 需要 在 每 台 计 
算 机 上 运行 实验 以 确定 它们 之 间 的 差距 。 好 消息 是 这 一 过 程 在 每 台 计 算 机 上 只 需 进 行 一 次 ， 只 
要 有 人 描述 了 该 计算 机 的 天 花 板 ， 那 么 任何 人 都 可 以 用 该 结果 来 指导 计算 机 优化 的 先后 次 序 。 










































































图 6-20 在 图 6-18 中 的 Roofline 模型 中 增加 了 天 花 板 ， 左 图 给 出 了 计算 天 花 板 ， 右 图 给 
4 AMD Opteron AMD Opteron 
64.0 ， 
32.0 
0 苹 160 | 一 一 
加 5 
县 县 
惧 EE 
EE 还 40 
局 忆 
20 
10 
.5 0.5 
福 秽 利和 二 ,下 让 浊 一 王 和 
算术 密度 : FLOP/Byte 算术 密度 : FLOP/Byte 
图 6-20 带 天 花 板 的 Roofline 模型 。 左 图 表示 计算 性 能 的 天 花 板 ， 浮 点 操作 混合 失衡 情况 下 性 能 为 


8GFLOP/s， 未 使 用 ILP 和 SIMD 优化 情况 下 为 2GFLOP/s。 右 图 表示 存储 带宽 的 天 花 板 ， 没 
有 软件 预 取 指 时 为 11GB/s， 没 有 内 存 关 联 时 为 4.8GB/s 
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出 了 存储 带宽 天 花 板 。 尽 管 较 高 的 天 花 板 没有 标记 两 种 优化 . 但 是 其 隐 含 使 用 了 全 部 优化 手 
段 ; 若 要 打破 最 高 的 天 花 板 ， 首 先 必须 打破 下 面 所 有 的 天 花 板 = 

天 花 板 与 下 一 个 上 限 之 间 的 宽度 是 尝试 优化 的 空间 。 因 此 ， 图 6-20 建议 优化 2 和 优化 
4。 前 者 改善 ILP， 对 于 改善 该 计算 有 很 大 益处 ; 后 者 改善 内 存 关联 ， 对 于 改善 存储 带宽 有 很 
大 益处 。 
图 6-21 将 图 6-20 中 的 天 花 板 整合 到 一 张 图 中 。 核 心 程 序 的 算术 密度 决定 了 优化 区 域 ， 
而 优化 区 域 反 过 来 又 给 出 了 哪些 优化 可 以 尝试 。 注 意 ,计算 优化 和 存储 带宽 优化 对 大 多 数 算 
术 密度 是 重合 的 。 图 6-21 中 有 三 处 不 同 的 阴影 标记 ， 用 于 区 分 不 同 的 优化 策略 。 例 如 ， 核 
心 程序 2 落 在 右边 的 梯形 区 域 ， 表 示 只 在 计算 优化 上 工作 。 核 心 程序 1 落 在 中 间 的 平行 四 边 
形 区域 ， 表 示 两 种 优化 均 可 尝试 ， 并 且 建 议 从 优化 2 和 优化 4 开始 。 注 意 核心 程序 1 的 午 直 
线 低 于 浮 点 失衡 优化 ， 因 此 优化 1 是 没有 必要 的 。 如 果 核 心 程序 落 在 左下 角 的 三 角形 区 域 ， 
则 表示 只 需 进行 存储 优化 。 

















图 6-21 带 天 花 板 的 Roofline 模型 ， 以 及 图 6-18 
中 的 两 个 核心 程序 。 算 术 密 度 处 于 右边 
梯形 区 域 的 核心 程序 应 当 着 重 于 计算 优 
化 ， 而 处 于 左下 三 角形 区 域 的 核心 程序 
应 当 着 重 于 存储 带宽 优化 ， 中 间 平 行 四 
边 形 区 域 的 核心 程序 两 种 优化 都 应 当 考 
虑 。 由 于 核心 程序 1 落 在 中 间 的 平行 四 
边 形 中 ， 可 尝试 优化 ILLP 和 SIMD、 内 
存 关 联 、 软 件 预 取 等 。 核 心 程序 2 落 在 
右边 的 梯形 区 域 ， 可 尝试 优化 ILP 和 
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算术 密度 :FLOP/Byte SIMD 以 及 浮 点 操作 均衡 


到 目前 为 止 ， 我 们 一 直 假设 算术 密度 是 固定 的 ， 但 是 实际 情况 并 非 如 此 。 首 先 ， 有 些 
核心 程序 的 算术 密度 会 随 问题 规模 增长 ， 如 稠密 矩阵 和 N 体 问题 ( 见 图 6-17 )。 事 实 上 ， 这 
也 是 程序 员 处 理 弱 比 例 缩放 较 之 强 比 例 缩放 更 成 功 的 原因 之 一 。 第 二 ， 讨 多 娄 渡 演 王 移 的 
效应 影响 访 存 的 次 数 ， 因 此 改善 cache 性 能 的 优化 也 能 改善 算术 密度 。 一 个 例子 是 通过 循环 
展开 ,并 将 地 址 近似 的 语句 组 合 到 一 起 来 改善 时 间 局 部 性 。 很 多 计算 机 提供 特殊 的 cache 指 
令 ， 将 数据 分 配 到 catche 中 ， 而 不 是 先 从 存储 器 中 填充 数据 ， 因 为 数据 可 能 很 快 被 改写 。 
这 些 优 化 降低 了 存储 器 流量 ， 从 而 将 算术 密度 极点 向 右 移动 了 一 个 因子 ， 例 如 1.5。 这 种 右 
移 将 核心 程序 放 人 一 个 不 同 的 优化 区 域 。 

虽然 上 面 的 例子 展示 了 如 何 帮 助 程序 员 改 进程 序 性 能 ， 而 体系 结构 架构 师 也 可 以 利用 这 
个 模型 来 决定 在 哪里 优化 硬件 ， 以 提升 他 们 认为 重要 的 核心 程序 的 性 能 。 

下 一 节 使 用 Roofline 模型 展示 多 核 徽 处 理 器 和 GPU 之 间 的 性 能 差异 ， 并 说 明 这 些 差异 
是 否 反映 了 真实 程序 的 性 能 。 

贡 铺 ;天花 板 是 有 层次 的 ， 较 低 的 天 花 板 更 容易 优化 。 显 然 ， 程 序 员 可 以 按 任意 顺序 优 
化 ， 但 是 遵循 这 个 顺序 可 以 避免 将 时 间 浪 费 在 因 其 他 约束 而 无 效 的 优化 上 。 类 似 3C 模型 ， 
只 要 Roofline 模型 进行 了 抽象 ， 就 会 存在 一 些 理想 的 假设 。 例 如 ， 屋 顶 线 假定 所 有 处 理 器 间 
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负载 是 均衡 的 。 

| 哺 般 流 基 准 测试 程序 的 一 种 蔡 换 方法 是 使 用 原始 DRAM 带宽 作为 屋顶 线 。 尽 管 原始 
带宽 密度 是 一 个 硬件 上 界 ， 但 存储 器 的 实际 性 能 往往 与 此 相差 甚 远 ， 因 此 没有 什么 用 处 。 也 
就 是 说 ， 没 有 程序 能 够 接近 该 上 界 。 使 用 流 的 负面 作用 是 非常 仔细 的 编程 可 能 超过 流 的 结 
果 ， 因 此 存储 器 屋顶 线 不 像 计算 屋顶 线 那样 坚实 。 我 们 坚持 使 用 流 是 因为 很 少 有 程序 员 能 比 
流 发 现 器 提供 更 多 的 内 存 带 宽 。 


陋 万 尽管 给 出 的 Roofline 模型 是 针对 多 核 处 理 器 的 ， 但 对 于 单 处 理 器 一 样 有 效 - 








6.11 ”实例 : Intel Core i7 960 和 NVIDIATesla GPU 的 评测 及 Roofline 模型 
Intel 的 一 组 研究 人 员 发 表 了 一 篇 论文 [ Lee et al.,2010 ]， 将 带 有 多 媒体 SIMD 扩展 的 四 


核 Intel Core i7 960 与 前 一 代 GPU (NVIDIA Tesla GTX 280 ) 进行 了 对 比 。 图 6-22 列 出 了 两 
个 系统 的 特点 。 两 个 产品 都 是 在 2009 年 秋天 购买 的 。Core i7 使 用 的 是 Intel 的 45nm 半导体 
工艺 ， 而 GPU 使 用 的 是 TSMC 的 65nm 工艺 。 虽 然 让 一 个 中 立 机 构 或 对 两 种 产品 都 感 兴趣 
的 机 构 进 行 评 估 可 能 更 公平 一 些 ， 但 是 本 章 的 意图 不 是 为 了 说 明 哪 个 产品 比 另 一 个 运行 得 快 
多 少 ， 而 是 试图 理解 这 两 种 截然 不 同 的 结构 特征 的 相对 价值 。 
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处 理 单元 的 数量 ( 核 或 线程 数 ) 

时 钟 频率 ( GHz ) 0.41 0.44 

管 芯 尺寸 263 520 2.2 2.0 

二 此 Intel 45 nm 1.6 1.0 

功 耗 (芯片 ， 非 模块 ) | | 1.0 1.3 

晶体 管 数量 700M 1400M | 3030M 2.0 4.4 

存储 带宽 { GB/s ) 32 WE | 4.4 5.5 

单 精度 SIMD 宽 度 4 8 | 32 2.0 8.0 

双 精度 SIMD 宽 度 2 1 0.5 8.0 

峰值 单 精度 标量 FLOPS (GFLOP/s) 26 117 4.6 2.5 

峰值 单 精度 SIMD FLOPS (GFLOP/s) 102 311 ~933 515 ~ 1344 |3.0~9.1| 6.6~13.1 

(SPl 加 或 乘 ) 不 支持 (311) (515) (3.0) (6.6) 

(SPI 融合 乘 加 指令 ) 不 支持 (622) (1344) (6.1) (13.1) 

( Rare SP 双 发 射 融合 乘 加 和 乘 ) 不 支持 (933) 不 支持 (9.1) 一 

峰值 双 精 度 SIMD FLOPS (GFLOP/s) 51 78 515 1.5 10.1 

图 6-22 Intel Core i7-960、NVIDIA GTX 280 以 及 GTX 480 的 规格 。 最 右面 的 列 展示 了 Tesla GTX 

280 和 Fermi GTX 480 与 Core i7 的 对 比 。 尽 管 本 节 给 出 的 例子 是 针对 Tesla 280 和 这 的 ， 但 
这 里 也 给 出 了 Fermi 480 与 Tesla 280 的 对 比 ， 因 为 本 章 中 介绍 到 了 这 点 。 注 意 这 里 的 存储 带 
宽 要 比 图 6-23 中 的 高 ， 因 为 这 些 是 DRAM 引 脚 的 带宽 ， 而 图 6-23 中 是 通过 基准 测试 程序 测 


量 得 到 的 处 理 器 中 的 带宽 (出 自 [ Lee et al., 2010 ] 中 的 表 2) 
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图 6-23 中 给 出 的 Core i7 960 和 GTX 280 的 Roofline 模型 ， 展 示 了 这 两 种 计算 机 的 不 
同 。GTX 280 不 仅 有 更 高 的 存储 带宽 和 双 精 度 浮 点 性 能 ， 而 且 其 双 精度 消 点 更 靠 左 。GTX 280 
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图 6-23 Roofline 模型 [ Williams, Waterman, Patterson, 2009 ]。 图 中 上 面 一 行 屋顶 线 给 出 了 双 精 度 浮 
点 性 能 ， 下 面 一 行 是 单 精度 浮 点 性 能 。( 双 精度 浮 点 性 能 的 屋顶 线 也 在 底下 一 行 给 出 。) 左边 
Core i7 960 的 峰值 双 精 度 浮 点 性 能 为 51.2GFLOP/s， 峰值 单 精度 浮 点 性 能 为 102.4GFLOP/s， 
峰值 存储 带宽 为 16.4GB/s。NVIDIA GTX 280 的 峰值 双 精 度 浮 点 性 能 为 78GFLOP/s， 峰 
值 单 精度 浮 点 性 能 为 624GFLOP/s， 峰 值 存储 带宽 为 127GB/s。 图 中 左 侧 的 垂直 虚线 表示 
0.5FLOP/Byte 的 算术 运算 强度 。Core i7 的 算术 运算 强度 受 存 储 带 宽 的 限制 不 能 超过 8GFLOP/s 
(对 于 双 精 度 浮 点 和 单 精度 浮 点 都 如 此 )。 图 中 右 侧 垂直 虚线 的 算术 运算 强度 为 4FLOP/Byte。 
在 Core i7 上 限制 在 51.2GFLOP/s( 双 精度 ) 以 及 102.4GFLOP/s ( 单 精度 )， 在 GTX 280 上 限 
制 在 78GFLOP/s ( 双 精 度 ) 以 及 624GFLOP/s ( 单 精度 )。 为 了 在 Core i7 上 达到 最 高 的 计算 速 
率 ， 需 要 使 用 全 部 4 个 核 和 SSE 指令 ， 以 及 数量 相当 的 乘法 和 加 法 。 对 于 GTX 280， 则 需要 
在 所 有 多 线程 的 SIMD 处 理 器 上 使 用 混合 的 乘 加 指令 
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的 双 精 度 消 点 在 0.6， 而 Core i7 的 在 3.1。 上 面 曾 提 到 ， 若 Roofline 模型 的 宵 点 更 靠 左 ， 则 
更 容易 达到 峰值 计算 性 能 。 对 于 单 精度 性 能 ， 两 种 计算 机 的 消 点 都 更 为 靠 右 ， 因 此 要 达到 
单 精 度 性 能 的 峰值 相当 困难 。 注 意 ， 内 核 的 算术 强度 基于 访问 主 存 的 字 节 数 ， 而 不 是 基 
于 访问 cache 的 字 节 数 。 因 此 ， 就 像 之 前 提 到 的 ， 若 大 部 分 访 存 都 能 落 在 cache 中 ， 那 么 
缓存 可 以 改变 特定 计算 机 上 内 核 的 算术 强度 。 同 样 要 注意 ， 该 带宽 在 两 种 架构 中 都 用 于 
单位 步 长 的 访问 。 我 们 即将 看 到 ， 真 实 的 聚集 -分 散 地 址 在 GTX 280 和 Core i7 上 会 更 慢 


此 
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研究 者 根据 对 最 近 提 出 的 四 种 基准 测试 集 的 计算 以 及 存储 特性 的 分 析 ， 选 择 了 一 些 基 
准 测试 程序 ， 组 成 了 能 够 捕获 这 些 特性 的 吞吐 率 计 算 核心 测试 集 。 图 6-24 给 出 了 性 能 结果 ， 
数字 越 大 表明 速度 越 快 。Roofline 模型 帮助 解释 了 本 例 中 的 相对 性 能 。 
























































SGEMM GFLOPAs 94 364 

MC 十 亿 条 路 径 / 秒 0.8 14 18 
Conv 百 万 像素 / 秒 1250 3500 2.8 
FFT GFLOP/s 71.4 213 3.0 
SAXPY GBAs 16.8 88.8 53 
LEM 百 万 次 查询 / 秒 85 426 5.0 
Solv 帧 秒 103 52 0.5 
SpMV GFLOP/s 49 9.1 19 
GJK 帧 秒 67 1020 15.2 
Sort 百 万 元 素 / 秒 250 198 08 
RG [2 5 B81 | 16 
Search | 百 万 次 查询 / 秒 50 90 18 
Hist 百 万 像素 / 秒 1517 2583 17 
Bilat 百 万 像素 / 秒 83 475 57 








图 6-24 ”两 个 平台 的 原始 和 相对 性 能 。 在 这 项 研究 中 ，SAXPY 只 被 用 来 测试 存储 带宽 ， 
所 以 右边 的 单位 为 GB/s 而 不 是 GFLOP/s (基于 [ Lee et al., 2010 ] 中 的 表 3 ) 


鉴于 GTX 280 的 原始 性 能 规格 从 2.5 倍 慢 (时 钟 速率 ) 变 为 7.5 倍 快 (每 个 芯片 的 核 )， 

而 性 能 从 2 倍 慢 (Solv) 变 为 15.2 倍 快 (G 开 )，Intel 的 研究 人 员 决 定 找到 造成 差别 的 原因 : 
。 存储 带宽 。GPU 有 4.4 倍 的 存储 带宽 ， 这 解释 了 为 什么 LBM 和 SAXPY 的 运行 快 5.0 
倍 和 5.3 倍 ; 它们 的 工作 集 为 几 百 兆 字 节 ， 因 此 数据 不 能 全 放 和 人 Core i7 的 cache 中 。 
(为 了 集中 地 访问 内 存 ， 故 意 不 使 用 第 5 章 中 的 cache 阻塞 。) 因此 ，Roofline 模型 的 
斜率 解释 了 它们 的 性 能 。SpMYV 同样 也 有 一 个 很 大 的 工作 集 ， 但 运行 只 快 了 1.9 倍 ， 


原因 是 GTX 280 的 双 精 度 浮 点 运算 只 比 Core i7 的 快 1.5 倍 。 


日 计算 带宽 。 剩 下 的 核心 程序 中 五 个 是 计算 绑 定 的 : SGEMM 、Conv、FFT、MC 和 
Bilat。GTX 运行 这 五 个 程序 时 分 别 快 3.9、2.8、3.0、1.8 和 5.7 倍 。 其 中 前 三 个 使 用 
单 精度 浮 点 运算 ， 而 且 GTX 280 的 单 精度 运算 要 快 3 ~ 6 倍 。MC 使 用 双 精度 浮 点 运 
算 ， 这 解释 了 为 什么 它 只 快 1.8 倍 ， 因 为 双 精 度 的 性 能 只 快 了 1.5 倍 。Bilat 使 用 GTX 
280 直接 支持 的 超越 函数 。Core i7 执行 Bilat 时 ， 三 分 之 二 的 时 间 用 来 计算 超越 函数 ， 
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故 GTX 280 要 快 $5.7 倍 。 这 些 结果 也 体现 了 使 用 硬件 支持 负载 的 特定 操作 ( 双 精 度 浮 

点 运算 ， 甚 至 是 超越 函数 ) 的 意义 。 

cache 收益 。 在 GTX 上 RC ( Ray Casting) 只 快 了 1.6 倍 ， 因 为 Core i7 的 cache 阻塞 

技术 可 以 防止 其 变 成 存储 带宽 绑 定 的 情况 (参见 5.4 节 和 5.14 节 )， 就 像 在 GPU 上 那 

样 。cache 阻塞 技术 也 可 以 帮助 Search 程序 。 如 果 索 引 树 小 到 可 以 在 cache 中 装 下 ， 

那么 Core i7 的 速度 会 快 2 倍 。 大 的 索引 树 会 使 程序 被 存储 带宽 绑 定 ( 受 存储 带宽 的 

限制 )。 总 体 来 说 ，GTX 运行 Search 程序 快 1.8 倍 。cache 阻塞 技术 也 对 Sort 程序 有 

利 。 尽 管 大 部 分 程序 员 不 会 在 SIMD 处 理 器 上 运行 Sort， 但 它 可 以 用 称 为 split 的 1 

位 Sort 原 语 编写 。 但 是 ，split 算 法 比 标量 Sort 程序 执行 的 指令 更 多 。 结 果 是 ，Core 

i7 比 GTX 280 快 1.25 倍 。 注 意 ，cache 对 于 运行 在 Core i7 上 的 其 他 核心 程序 也 有 帮 

助 ， 因 为 cache 阻塞 技术 允许 SGEMM、FFT 和 SpMYV 变 为 受 计算 绑 定 的 程序 。 这 项 

观察 再 次 强调 了 第 $ 章 中 cache 阻塞 优化 技术 的 重要 性 。 

聚集 - 分 散 。 如 果 数 据 分 散在 主 存 中 ,那么 多 媒体 SIMD 扩展 几乎 没有 帮助 ， 只 有 

当 访 问 的 数据 是 16 字 节 对 齐 时 才 会 获得 最 佳 性 能 。 因 此 ， 在 Core i7 上 GJK 程序 

从 SIMD 中 获得 的 好 处 很 少 。 就 像 前 面 提 到 过 的 ，GPU 提供 向 量 结构 支持 而 大 部 

分 SIMD 扩展 不 支持 的 聚集 - 分 散 技术 。 内 存 控制 器 甚至 批 次 访问 同一 个 DRAM 页 

面 ( 见 5.2 节 )。 这 一 组 合意 味 着 GTX 280 在 运行 GJK 时 比 Core 订 快 15.2 倍 ， 比 

图 6-22 中 的 任何 单个 物理 参数 都 要 大 。 这 种 观察 再 次 证 明了 聚集 - 分 散 技 术 对 于 向 

量 和 SIMD 扩展 中 缺少 的 GPU 体系 结构 的 重要 性 。 

e 同步 。 同 步 的 性 能 受到 原子 更 新 的 限制 ， 这 占据 了 Core i7 28% 的 总 执行 时 间 ， 尽 管 
Core i7 有 硬件 读 取 并 自 增 指令 。 因 此 ，Hist 程序 在 GTX 280 上 只 快 了 1.7 倍 。Solv 
程序 使 用 少量 指令 以 及 一 个 紧 跟 的 同步 栅栏 来 解决 一 批 独立 的 限制 约束 。Core 这 可 
以 从 原子 指令 以 及 存储 一 致 性 模型 (保证 结果 是 正确 的 ， 即 使 之 前 所 有 的 访 存 指令 并 
未 全 部 完成 ) 之 中 获 益 。 由 于 没有 存储 一 致 性 模型 ， 当 GTX 280 从 系统 处 理 器 那里 
得 到 若干 批 操作 时 ， 其 性 能 只 是 Core i7 的 0.5 倍 。 这 一 结果 指出 了 同步 的 性 能 对 于 
一 些 数据 并 行 问题 的 重要 性 。 

由 Intel 研究 人 员 选 择 的 内 核 测试 程序 所 揭示 的 Tesla GTX 280 的 弱点 已 经 在 其 后 续 架 构 


























中 得 到 解决 : Fermi 拥有 更 快 的 双 精度 浮 点 性 能 、 更 快 的 原子 操作 以 及 cache。 另 一 个 有 趣 的 
情况 是 ， 向 量 结构 支持 的 聚集 - 分 散 机 制 早 于 SIMD 指令 几 十 年 就 出 现 了 ， 而 对 SIMD 扩展 
的 有 效 利用 非常 重要 ， 这 在 此 次 比较 之 前 就 已 经 有 人 预言 到 了 。Intel 的 研究 人 员 注 意 到 ，14 
个 核心 程序 中 有 6 个 在 Core i7 提供 的 更 有 效 的 聚集 -分 散 支 持 下 ， 可 以 更 好 地 发 据 SIMD。 


这 项 研究 当然 也 确立 了 cache 阻塞 技术 的 重要 性 。 


现在 我 们 已 经 看 到 了 测评 不 同 多 处 理 器 所 得 出 的 很 多 结果 ， 接 下 来 让 我 们 回 到 DGEMM 


的 例子 上 ， 看 看 程序 的 C 代码 需 进行 多 少 修改 才能 发 挥 多 处 理 器 的 优势 。 


6.12 ”加速 : 多 处 理 器 和 和 矩阵 乘法 
本 节 继 续 调整 DGEMM ， 使 其 在 底层 Intel Core i7 (Sandy Bridge) 硬件 上 不 断 提升 


| 性 能 ， 





这 是 优化 DGEMM 的 最 后 一 步 ， 也 是 性 能 提升 最 大 的 一 步 。 每 个 Core i7 有 8 个 核 我 们 用 


的 计算 机 有 2 个 Core i7。 因 而 共有 16 个 核 来 运行 DGEMM 程序 。 


图 6-25 给 出 了 使 用 这 些 核 的 OpenMP 版 DGEMM。 注 意 ,第 30 行 是 相对 于 图 5-48 唯 
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一 增加 的 一 行 代码 ， 以 使 程序 可 以 运行 在 多 处 理 器 上 。OpenMP 的 pragma 语句 告诉 编译 器 
在 最 外 层 循环 使 用 多 线程 ， 即 告诉 计算 机 将 最 外 层 循环 的 任务 分 配给 所 有 线程 去 执行 。 





{ 


DT 
SEHIGTFONTCOoomNon 


26 上 





6-25 图 5-48 中 DGEMM 程序 的 OpenMP 版 。 第 30 行 是 唯一 一 条 OpenMP 语句 ， 
使 最 外 层 的 for 循环 并 行 执行 。 这 行 代码 是 本 图 与 图 5-48 的 唯一 区 别 


图 6-26 画 出 了 一 个 经 典 的 多 处 理 器 加 速 比 图 ， 展 示 了 当 线 程 数量 增加 时 相对 


1 #include <x86intrin.h> 

2 #define UNROLL (4) 

3 #define BLOCKSIZE 32 

4 void do_block (int n, int si, int sj. int sk, 


double *A, double *B, double *C) 


for (int i = si; i < si+BLOCKSIZE; i+=UNROLL*4 ) 


for ( int j = sj; j < sj+BLOCKSIZE; j++ ) { 
—m256d c[4]; 
for (int x = 0; x < UNROLL; x++ ) 
C[x] = _mm256_1oad_pd(C+i+x*4+j*n); 
/* cLx] = CLiJCj] */ 
for( int k = sk; k < sk+BLOCKSIZE; k++ ) 
{ 


一 m256d b = _mm256_broadcast_sd(B+k+j*n); 
fh be BLKILIT 
for (int x = 0; x < UNROLL; x++) 
C[x] = _mm256_add_pd(c[x], /* c[x]+=A[i][k]*b */ 


MM256_mul_pd(_mm256_load_pd(Atn*k+x*4+i ) ， 


for ( int x = 0; x < UNROLL; x++ ) 
MMm256_store_pd(C+ti+x*4+j*n, cLx]); 
1* CI1ICj] = cLx] */ 


28 void dgemm (int n, double* A, double* B, double* C) 
29 1 


30 #pragma omp parallel for 
for ( int sj = 0; sj < n; sj += BLOCKSIZE ) 


for (int si = 0; si < n; si += BLOCKSIZE ) 
for ( int sk = 0; sk < ni sk += BLOCKSIZE ) 
do blooktns, St. 3 Ska NB, BIS 





b)); 





F 单 线程 





的 性 能 提升 。 从 该 图 可 以 很 容易 地 看 到 强 比 例 缩放 相对 于 弱 比 例 缩放 的 挑战 。 当 所 有 数据 都 
可 以 放 入 第 一 级 数据 cache 中 时 ， 例 如 32 x 32 矩阵 ， 增 加 线程 数量 实际 上 会 降低 性 能 。 这 
种 情况 下 ，16 个 线程 的 DGEMM 的 性 能 差不多 是 单线 程 的 一 半 。 相 反 ， 最 大 的 两 个 矩阵 在 
使 用 16 个 线程 时 ， 性 能 提升 了 14 倍 ， 从 而 得 到 了 图 6-26 最 上 面 和 最 右面 的 两 条 线 。 

图 6-27 给 出 了 线程 数 从 1 增加 到 16 时 的 绝对 性 能 增长 。 对 于 960x960 的 矩阵 ， 
DGEMM 程序 以 174GFLOPS 的 速率 执行 。 图 3-22 中 未 经 优化 的 C 版 本 的 DGEMM 只 有 
0.8GFLOPS 的 运行 速率 ， 因 此 通过 第 3 一 6 章 基 于 硬件 对 代码 进行 的 优化 ， 性 能 提升 了 


200 倍 ! 


接 下 来 我 们 将 给 出 关于 多 进程 的 雇 误 与 陷阱 。 在 很 多 失败 的 计算 机 体系 结构 中 ， 有 很 多 
并 行 处 理 项 目 忽略 了 这 些 雇 误 与 陷阱 
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黄 

县 *— 960 X 960 
关 一 一 480X480 
由 一 一 160X 160 
一 呈 32X 32 











线程 
图 6-26 ”线程 数 增加 时 ， 相 对 单线 程 的 性 能 提升 。 表 达 本 图 最 客观 的 方法 是 将 多 线程 性 能 
与 优 单 线程 性 能 进行 比较 ， 这 也 是 我 们 的 做 法 。 与 本 图 进行 对 比 的 是 图 5-48 中 未 

使 用 OpenMP pragma 语句 的 代码 


m32x32 m160x160 m480x480 m960x960 
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线程 
图 6-27 四 个 大 小 不 同 矩 阵 的 DGEMM 程序 的 性 能 。 对 于 960 x 960 矩阵， 在 使 用 16 个 线程 时 


与 图 3-22 中 未 经 任何 优化 的 代码 相 比 ， 性 能 提升 了 212 倍 


陋 策 这 些 结论 是 在 Turbo 模式 关闭 的 情况 下 得 到 的 。 该 系统 是 一 个 双 芯片 系统 ， 因 此 
使 用 1 个 线程 (只 有 其 中 一 个 芯片 上 有 一 个 核 ) 或 2 个 线程 (每 个 芯片 上 一 个 核 ) 都 能 得 到 
完整 的 Turbo 加 速 (3.3/2.6 = 1.27 )。 当 线程 数 增加 时 (有效 核 数 也 增多 )， 从 Turbo 模式 的 
获 益 将 减少 ， 因 为 用 于 这 些 核 的 功 耗 预算 相对 更 少 了 。 对 于 4 个 线程 ， 平 均 Turbo 加 速 比 是 
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1.23，8 个 线程 时 为 1.13，16 个 线程 时 为 1.11。 

辆 稻 虽然 Sandy Bridge 支持 每 核 两 个 硬件 线程 ， 但 当 使 用 的 线程 达到 32 个 时 ， 就 无 
法 得 到 更 多 的 性 能 提升 。 因 为 一 个 AVX 硬件 在 一 个 核 上 复 用 的 两 个 线程 间 共享 ， 因 此 每 核 
分 配 两 个 线程 实际 上 会 因为 复 用 开销 而 损害 性 能 。 


6.13” 廖 误 与 陷阱 
大 量 的 研究 工作 揭示 了 并 行 处 理 的 诸多 已 误 和 陷阱 ， 这 里 我 们 | 二 多 年 来， 先知 们 已 经 展 
讨论 其 中 四 个 。 开 了 这 样 的 争论 ， 单 个 计 
雇 误 : Amdahl 定律 不 适用 于 并 行 计算 机 。 六 六 的 直 朴 形 澡 古板 到 法 


1987 年 一 个 研究 组 织 的 负责 人 宣称 一 台 多 处 理 器 机 器 打破 了 | 了 区 全 二 3 


Amdahl 定律 。 为 了 试图 理解 这 些 媒 体 报道 的 依据 ,我 们 首先 看 一 下 | 机 互联 以 通过 合作 方案 来 
文献 中 对 Amdahl 定律 的 描述 [ 1967, p.483 ]: 实现 …… 单 处 理 器 方法 的 
此 时 可 以 得 出 的 一 个 相当 明显 的 结论 是 :为 获得 高 并 行 处 理 过 | 持续 有 效 性 证 明了 
Gene Amdahl, “ Validity of the 

率 所 花费 的 努力 都 是 无 用 的 ， 除 非 顺序 处 理 速 度 提高 的 教 量 级 也 与 “| vinnie proccssor approoch 4o 
其 十 分 接近 。 achieving luge seale computing 

这 人 句 话 必须 依然 是 正确 的 ， 程 序 中 被 忽视 的 部 分 必然 限制 性 能 。 | Cssco Re 0 
该 定律 的 一 种 解释 可 得 到 下 面 一 条 引 理 : 每 个 程序 中 各 部 分 必须 是 
顺序 的 ， 因 此 处 理 器 的 数量 必然 有 一 个 经 济 的 上 限 ， 比 如 100。 而 使 用 1000 个 处 理 器 达到 的 
线性 增长 ， 证 明 该 引 理 是 错误 的 ， 因 而 得 出 了 Amdahl 定律 被 打破 的 结论 。 

这 些 人 研究 人 员 使 用 的 方法 是 弱 比 例 缩放 : 他 们 在 类 似 的 时 间 内 将 计算 工作 量 提高 1000 
倍 ， 而 不 是 在 相同 的 数据 集 上 将 速度 提高 1000 倍 。 对 于 他 们 的 算法 ， 程 序 中 顺序 执行 的 部 
分 是 常数 ， 与 问题 的 输入 规模 无 关 ， 而 其 余部 分 则 完全 并 行 一 故 得 到 使 用 1000 个 处 理 器 
时 的 线性 增长 。 

Amdahl 定律 显然 也 适用 于 并 行 处 理 器 。 这 项 研究 指出 了 更 快 的 计算 机 的 主要 用 途 之 一 
是 运行 更 大 规模 的 问题 。 只 要 确保 用 户 真 正 关心 这 些 问题 ， 而 不 是 通过 购买 一 个 昂贵 的 计算 
机 来 发 现 问题 使 很 多 处 理 器 忙碌 。 

廖 误 : 峰值 性 能 可 代表 实际 性 能 。 

超级 计算 机 行业 曾经 在 市 场 营销 中 使 用 过 这 个 (峰值) 指标 ， 并 且 并 行 机 更 加 重 了 这 一 
雇 误 。 市 场 营销 人 员 不 仅 在 单 处 理 器 节点 使 用 这 种 几乎 不 可 能 达到 的 峰值 性 能 指标 ， 而 且 还 
将 其 乘 以 处 理 器 的 总 个 数 ， 从 而 假定 可 以 达到 完美 加 速 ! Amdahl 定律 已 指出 达到 两 种 峰值 
是 多 么 困难 将 两 者 相 乘 就 更 是 错 上 加 错 了 。Roofline 模型 有 助 于 我 们 正确 地 看 待 峰值 性 能 。 

陷阱 : 在 利用 和 优化 多 处 理 器 体系 结构 时 不 开发 软件 。 

有 很 长 一 段 时 间 ， 并 行 软件 一 直 落后 于 并 行 硬件 ， 可 能 是 因为 软件 问题 更 为 困难 。 我 们 
给 出 一 个 例子 来 说 明 这 一 问题 ， 但 是 可 供 选择 的 例子 还 有 很 多 ! 

当 为 单 处 理 器 设计 的 软件 用 于 多 处 理 器 环境 时 经 常会 遇 到 这 样 一 个 问题 。 例 如 ，Silicon 
Graphics 操作 系统 最 初 假定 页 分 配 不 频繁 ， 通 过 锁 来 保护 页 表 。 在 单 处 理 器 中 ， 这 并 不 是 性 
能 问题 。 而 在 多 处 理 器 中 ， 这 对 某 些 程序 而 言 则 变 成 一 个 主要 的 性 能 瓶颈 。 考 虑 这 样 一 种 情 
况 ， 一 个 程序 使 用 大 量 的 页 ， 这 些 页 在 启动 时 进行 初始 化 ， 正 如 UNIX 为 静态 分 配 页 所 做 的 
操作 那样 。 假 设 该 程序 被 并 行 化 ， 从 而 有 多 个 进程 分 配 页 。 由 于 分 配 页 需要 使 用 页 表 ， 而 页 
表 在 每 次 使 用 时 是 被 锁定 的 ， 因 此 如 果 进 程 都 试图 同时 分 配 页 面 (恰好 就 是 我 们 在 初始 化 时 
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所 预期 的 情况 )， 那 么 即使 是 允许 多 个 线程 的 OS 内 核 也 会 被 序列 化 / 串 行 化 。 

页 表 的 序列 化 / 串 行 化 消除 了 初始 化 中 的 并 行 性 ， 并 对 整体 并 行 性 能 有 显著 影响 。 该 性 
能 瓶颈 甚至 在 任务 级 并 行 中 也 存在 。 例 如 ， 假 设 我 们 将 并 行 处 理 程序 分 为 若干 独立 的 作业 并 
运行 ， 一 个 处 理 器 上 运行 一 个 作业 ， 作 业 之 间 没 有 任何 共享 。( 这 恰好 是 用 户 的 做 法 ， 因 为 
他 合理 地 认为 性 能 问题 是 应 用 程序 中 非 预期 的 共享 或 冲突 所 造成 的 。) 不 幸 的 是 ， 锁 机 制 依然 
将 所 有 作业 串 行 化 ， 因 此 即使 独立 的 作业 性 能 也 会 很 低 。 

这 个 缺陷 表明 ， 当 软件 在 多 处 理 器 上 运行 时 ， 可 能 会 出 现 一 些微 妙 但 显著 的 性 能 缺陷 。 
和 其 他 许多 关键 的 软件 组 件 一 样 ， 操 作 系统 的 算法 和 数据 结构 在 多 处 理 器 环境 下 需要 重新 考 
虑 。 在 页 表 较 小 的 区 域 加 锁 可 以 有 效 地 避免 这 个 问题 。 

廖 误 : 在 不 提供 内 存 带 宽 的 情况 下 ， 也 可 以 获得 良好 的 向 量 性 能 。 

从 Roofline 模型 中 可 以 看 到 ， 存 储 带宽 对 各 种 体系 结构 都 很 重要 。DAXPY 每 个 浮 点 操作 
需要 1.5 次 存 访 ， 对 于 很 多 科学 计算 代码 而 言 这 是 一 个 很 标准 的 比例 。 即 使 浮 点 操作 不 需要 花 
费时 间 ， 但 由 于 存储 受 限 ，Cray-1 计算 机 也 不 能 增加 DAXPY 向 量 序列 的 性 能 。 当 编译 器 使 
用 阻塞 机 制 改变 计算 时 《使 数据 可 以 保存 在 向 量 寄存 器 中 )，Cray-1 运行 Linpack 的 性 能 有 了 
跳跃 式 提升 。 该 方法 减少 了 每 个 浮 点 运算 需要 的 访 存 次 数 ， 并 使 性 能 提升 了 将 近 两 倍 。 因 此 ， 
Cray-1 的 存储 带宽 对 于 之 前 有 更 多 带宽 需求 的 循环 来 说 足够 了 ， 这 正 是 Roofline 模型 所 预期 的 。 


6.14 本章 小 结 


通过 简单 地 聚合 处 理 器 来 构建 计算 机 的 梦想 ， 在 计算 机 最 早 的 “| 典 们 正 葡 力 于 将 末末 产品 
时 代 就 已 经 出 现 了 。 然 而 ， 构 建 并 充分 有 效 利用 并 行 处 理 器 的 进程 | 的 开发 转 到 多 核 设计 上 。 
是 缓慢 的 。 其 原因 一 方面 是 受 软件 限制 ， 另 一 方面 是 为 了 提高 可 用 | 到 们 相信 这 对 工业 界 是 一 
性 和 效率 ， 多 处 理 器 体系 结构 的 改进 之 路 同样 温 长 。 本 章 中 讨论 了 | 六 条 旬 和 二 二 让 逢 本 
很 多 软件 方面 的 挑战 ， 包 括 因 Amdahl 定律 而 导致 的 编写 高 加 速 比 。| 嫩 天 站 地 的 变化 …… 
程序 的 困难 。 不 同体 系 结构 之 间 的 差异 性 ， 以 及 很 多 并 行 体系 结构 “| parouelinr (tarel 兴起 
短暂 的 生命 周期 及 有 限 的 能 力 ， 使 得 软件 困难 更 加 严重 。6.15 节 (网 ! ”< 下 闪 如 2004 
络 内 容 ) 讨论 了 这 些 多 处 理 器 的 历史 。 要 对 本 章 所 讲述 的 主题 有 更 
深入 的 理解 ， 请 参阅 《计算 机 体系 结构 : 量化 研究 方法 》( 第 5 版 ) 第 4 章 中 更 多 关于 GPU 
以 及 CPU 与 GPU 对 比 的 内 容 ， 以 及 第 6 章 中 关于 WSC 的 内 容 。 
正如 第 1 章 所 述 ， 尽 管 过 去 的 历程 漫长 而 坎坷 ， 但 信息 技术 产业 的 未 来 与 并 行 计算 已 经 紧 
密 联系 在 一 起 了 。 虽 然 这 种 努力 可 能 会 像 过 去 一 样 失败 ， 但 依然 有 很 多 理由 让 前 景 充满 希望， 
。 软 件 即 服务 ( SaaS) 的 重要 性 正 不 断 增 长 ， 并 且 集群 已 经 被 证 明 是 提供 此 类 服务 的 一 
种 非常 成 功 的 方法 。 通 过 在 更 高 层次 提供 元 余 ， 包 括 地 理 分 布 的 数据 中 心 ， 此 类 服务 
可 以 为 全 世界 的 客户 提供 24x7x365 的 可 用 性 。 
我 们 相信 仓储 式 计算 机 正在 改变 服务 器 设计 的 目标 和 原则 ， 就 像 移动 客户 的 需求 正在 
改变 微 处 理 器 设计 的 目标 和 原则 一 样 。 这 两 者 同样 也 造成 了 软件 产业 的 革命 。 单 位 美 
元 带 来 的 性 能 和 单位 焦耳 带 来 的 性 能 驱动 着 移动 客户 端 硬件 和 WSC 硬件 的 发 展 ， 而 
并 行 是 达到 这 些 目 标的 关键 。 
SIMD 和 向 量 操作 很 适合 多 媒体 应 用 (在 后 PC 时 代 占 据 重要 地 位 )。 它 们 比 传统 的 并 
行 MIMD 编程 更 容易 ， 并 且 比 MIMD 更 节能 。 为 了 观察 SIMD 与 MIMD 的 重要 性 ， 
图 6-28 绘制 了 MIMD 的 内 核 数 ， 以 及 随时 间 推 移 x86 计算 SIMD 模式 中 每 时 钟 周期 
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的 32 位 和 64 位 操作 的 数目 。 对 于 x86 计算 机 ， 我 们 期 待 每 两 年 在 芯片 上 增加 两 个 核 
并 且 每 四 年 SIMD 宽度 增加 一 倍 。 根 据 这 些 假设 ， 下 一 个 十 年 ，SIMD 的 并 行 加 速 会 
是 MIMD 并 行 的 两 倍 。 考 虑 到 SIMD 对 多 媒体 的 有 效 性 及 其 在 后 PC 时 代 持 续 增 长 的 
重要 性 ， 这 种 强调 可 能 是 适当 的 。 因 此 ， 至 少 应 理解 SIMD 并 行 和 MIMD 并 行 同 等 





重要 ， 尽 管 后 者 已 经 得 到 了 更 多 的 关注 。 
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图 6-28 x86 计算 机 随时 间 变 化 的 MIMD 、SIMD 以 及 MIMD 和 SIMD 混合 的 潜在 并 行 加 速 比 。 
该 图 假设 每 两 年 单 芯片 上 MIMD 的 核 数 增加 两 个 ， 每 四 年 SIMD 操作 的 数目 翻 倍 


。 并 行 处 理 在 科学 计算 和 工程 计算 等 领域 中 非常 普遍 。 这 类 应 用 领域 对 计算 能 力 几乎 充 
满 无 限 的 渴望 。 很 多 应 用 具有 天 然 的 并 行 性 。 集 群 再 一 次 占据 了 此 类 应 用 领域 。 例 
如 ,根据 2012 Top 500 报告 ,集群 在 Linpack 测试 的 500 强 中 占据 了 80% 。 

。 所 有 的 桌面 和 服务 器 微 处 理 器 厂商 正在 生产 多 处 理 器 以 获得 更 高 的 性 能 ， 与 过 去 不 同 
的 是 ， 串 行 应 用 程序 不 再 有 获取 更 高 性 能 的 捷径 。 正 如 之 前 所 述 ， 串 行程 序 现在 是 慢 








程序 。 因 此 ， 需 要 更 高 性 能 的 程序 员 必 须 将 代码 并 行 化 ， 或 者 编写 新 的 








行 处 理 程序 。 


。 过 去 ， 微 处 理 器 和 多 处 理 器 对 于 成 功 的 定义 是 不 同 的 。 提 升 单 处 理 器 性 能 时 ， 若 单线 
程 性 能 随 硅 面积 的 开 方 增长 ， 征 处 理 器 设计 者 会 感觉 很 满意 ， 满 足 于 性 能 随 资源 数量 
的 亚 线性 增长 。 多 处 理 器 的 成 功 在 过 去 通常 定义 为 与 处 理 器 数量 相关 的 线性 加 速 比 函 
数 ， 并 假定 n 个 处 理 器 的 采购 成 本 或 管理 成 本 是 单 处 理 器 的 n 倍 。 现 在 并 行 性 正在 以 


片上 多 核 的 形式 实现 ， 因 而 我 们 可 以 使 用 已 经 获得 成 功 的 传统 微 处 理 器 标准 来 评测 亚 


线性 的 性 能 提升 。 





。 运行 时 编译 技术 和 自动 调谐 的 成 功 使 得 人 们 认为 软件 能 够 适应 并 利用 每 个 芯片 上 越 来 





越 多 的 内 核 ， 提 供 了 静态 编译 器 所 不 能 提供 的 灵活 性 。 








日 与 过 去 不 同 的 是 ,开源 已 成 为 软件 产业 的 关键 组 成 部 分 。 开 源 可 以 改善 工程 解决 方 
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案 ， 促 进 开 发 者 之 间 的 知识 共享 。 同 时 也 鼓励 了 创新 ， 改 变 旧 软件 ， 欢 迎新 语言 和 新 
软件 产品 。 这 种 开放 的 文化 在 这 个 快速 变化 的 时 期 是 非常 有 益 的 。 
为 了 鼓励 读者 接受 这 种 变革 ， 我 们 通过 第 3 一 6 章 中 的 “加 速 ”小 节 来 证 明和 矩阵 乘法 在 
Intel Core i7 (Sandy Bridge) 上 的 潜在 并 行 性 : 
。 第 3 章 中 的 数据 级 并 行 通过 使 用 256 位 操作 数 的 AVX 指令 并 行 执行 4 个 64 位 浮 点 操 
作 使 性 能 提升 了 3.85 倍 , 证 明了 SIMD 的 价值 。 
。 第 4 章 中 的 指令 级 并 行 通过 4 次 循环 展开 给 乱 序 执行 的 硬件 提供 了 更 多 的 指令 去 调 
度 ， 从 而 使 性 能 提升 了 2.3 倍 。 
。 第 5 章 中 的 cache 优化 使 用 cache 阻塞 来 减少 cache 缺失 ， 使 得 不 能 放 进 LI1 cache 的 
和 矩阵 性 能 提升 了 2.0 一 2.5 倍 。 
。 本 章 中 的 线程 级 并 行 通过 使 用 多 核 芯片 上 所 有 16 个 核 ， 使 无 法 放 入 单一 Ll cache 的 
和 矩阵 性 能 提升 了 4 一 14 倍 ， 从 而 证 明了 MIMD 的 价值 。 并且 这 只 需 通 过 加 入 一 行 
OpenMP pragma 语句 就 能 实现 。 
使 用 本 书 中 的 方法 并 且 根 据 该 计算 机 对 软件 进行 修改 ,在 DGEMM 程序 上 加 了 24 行 代 
码 。 对 于 32x32、160x 160、480 x 480 和 960 x 960 的 矩阵 ， 通 过 这 几 行 代码 和 本 书 的 方法 
得 到 的 总 性 能 加 速 比 为 8、39、129 和 2121! 
软 硬 件 接口 上 的 并 行 变革 可 能 是 过 去 60 年 来 所 面临 的 最 大 挑战 。 但 也 可 以 认为 这 是 一 
个 极 好 的 机 会 ， 就 像 “加速 ”小 节 中 所 展示 的 。 这 一 变革 在 IT 界 内 外 提供 了 许多 新 的 研究 
和 商业 前 景 ， 并且 主导 多 核 时 代 的 公司 可 能 并 不 是 那些 主导 单 处 理 器 时 代 的 公司 。 在 理解 了 
底层 硬件 发 展 的 趋势 以 及 学 会 了 如 何 根据 硬件 来 改变 软件 之 后 ， 也 许 你 也 会 成 为 创新 者 中 的 
一 员 ， 抓 住 未 来 一 定 会 出 现 的 机 遇 。 我 们 期 待 着 从 你 的 发 明 中 获 益 ! 


六 6.15 ”历史 观点 与 拓展 阅读 


本 节 给 出 了 过 去 50 年 来 多 处 理 器 的 发 展 历史 (精彩 且 充 满 波折 )， 详 细 内 容 请 阅读 本 书 
的 网 络 内 容 。 


6.16 练习 题 


6.1 首先 把 你 每 天 (工作 日 ) 的 日 常 活动 列 一 个 表 。 例 如 起床、 沐浴 、 穿 衣 、 吃 早饭 、 和 弄 干 头发 、 
刷牙 。 确 保 把 清单 分 解 ， 这 样 你 至 少 有 10 个 活动 。 
6.1.1 [5] <6.2> 考 虑 哪些 活动 已 经 利用 了 某 种 形式 的 并 行 ( 例 如 ， 是 同时 刷 多 颗 牙 还 是 一 次 只 刷 
一 颗 牙 ， 是 一 次 只 带 一 本 书 到 学 校 ， 还 是 将 所 有 书 装 到 背包 里 “并 行 ”携带 )。 分 析 每 个 活动 
是 否 已 经 并 行 工作 ， 如 没有 ， 分 析 原 因 。 
6.1.2 [5] <6.2> 接 下 来 考虑 哪些 活动 可 以 并 发 执行 (例如 ， 吃 早餐 和 听 新 闻 )。 分 析 哪 些 活动 可 以 
成 对 并 发 进行 。 
6.1.3 [5 ] < 6.2> 对 于 练习 题 6.1.2， 如 何 改变 现 有 系统 (例如 ， 淋 浴 设 备 、 衣 服 、 电 视 机 、 汽 车 等 ) 
从 而 并 行 执行 更 多 的 任务 ? 
6.1.4 [5] < 6.2 > 如 果 你 想 能 尽 可 能 多 地 并 行 执行 任务 ， 估 计 完 成 这 些 任务 可 以 缩短 的 时 间 是 多 少 ? 
6.2 假设 你 要 制作 三 份 蓝莓 蛋糕 。 和 蛋糕 的 配料 如 下 : 
。 1 杯 黄油 ， 软 化 备用 
。 1 杯 糖 
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406 淄 6 苹 
e 4 个 鸡蛋 
。 1 茶匙 香草 精 
e 0.5 茶匙 盐 
e 0.25 茶匙 肉 豆 荡 
e 1.5 杯 面粉 
e 1 杯 蓝 梅 
蛋糕 的 制作 流程 如 下 : 
。 第 1 步 : 烤箱 预 热 至 3250F ( 160Y )。 在 烤 盘 上 抹 黄 油 和 面粉 。 
。 第 2 步 : 在 一 只 大 碗 中 使 用 搅拌 器 以 中 速 将 奶油 和 糖 混 合 在 一 起 ， 直 到 松 发 。 加 和 鸡蛋、 
香草 精 、 盐 和 肉 豆 奖 ,搅拌 到 完全 混合 。 将 搅拌 器 降 到 低速 ， 一 次 加 入 0.5 杯 面粉 ， 搅 拌 
到 完全 混合 。 
。 第 3 步 : 慢 慢 加 入 蓝莓 ， 将 蛋糕 均匀 地 放 在 烤 盘 中 ， 烤 制 60 分 钟 。 
6.2.1 [5] <6.2> 你 的 任务 是 尽 可 能 高 效率 地 完成 三 份 蛋糕 。 假 定 只 有 烤箱 ， 且 只 能 容纳 一 份 蛋糕 、 
一 个 大 硫 、 一 个 烤 盘 、 一 个 搅拌 器 ， 请 做 出 合理 的 调度 以 尽 可 能 快 地 完成 任务 ， 并 找 出 任务 
中 的 瓶颈 。 
6.2.2 [5 ] < 6.2> 假设 现在 有 三 个 硫 、 三 个 烤 盘 和 三 个 搅拌 器 。 在 增加 了 资源 后 ， 工 序 加 快 了 多 少 ? 
6.2.3 [5 ] < 6.2> 假设 现在 有 两 个 朋友 可 帮 你 襄 饪 ， 并 且 有 一 个 可 容纳 三 个 蛋糕 的 大 烤箱 。 这 些 将 
对 练习 题 6.2.1 中 的 计划 有 何 改变 ? 
6.2.4 [5] <6.2> 将 制作 蛋糕 与 并 行 计算 机 中 循环 的 三 个 迭代 进行 类 比 。 分 析 蛋 糕 制 作 中 存在 的 数 
据 级 并 行 和 任务 级 并 行 。 
6.3 许多 计算 机 应 用 程序 需要 对 一 组 数据 进行 搜索 和 排序 。 已 经 出 现 了 很 多 种 高 效 的 搜索 和 排序 算 
法 用 以 减少 这 些 任务 的 执行 时 间 。 在 本 是 中， 我们 将 考虑 如 何 最 好 地 并 行 化 这 些 任务 。 
6.3.1 [10] < 6.2> 考虑 下 面 的 二 进 制 搜索 算法 (一 种 经 典 的 分 而 治之 算法 )， 该 算法 可 以 在 已 经 排 
序 的 N 元 素数 组 A 中 搜索 值 x， 并 返回 匹配 项 的 索引 号 ， 
BinarySearch(A[0..N-1]，X) | 
low = 0 
high = N -1 
while (low <= high) | 
mid ~ (low + high) / 2 
if (A[mid] >X) 
high = mid -1 
else if (A[mid] <X) 
low= mid + 1 
else 
return mid // found 
nh -1 // not found 
} 
假设 在 一 个 有 Y 个 核 的 多 核 处 理 器 上 运行 BinarySsearch， 且 Y 远 远 小 于 N。 请 问 从 Y 和 NN 
预期 获得 的 加 速 比 是 多 少 ? 请 画图 表示 。 
6.3.2 [5] <6.2> 接 下 来 , 假设 Y 等 于 N， 这 会 对 你 前 面 的 结论 有 何 影响 ”如 果 要 求 你 获得 最 佳 加 
速 比 〈 例 如 强 比例 缩放 )， 那 么 应 如 何 修改 代码 ? 
6.4 考虑 下 面 的 C 代码 片段 : 


for (j=2;j<=1000;j++) 
DLj] = DLj-1]+D[j-2]; 
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6.4.1 
6.4.2 


6.4.3 


6.4.4 


6.4.5 


6.4.6 


6.4.7 


6.5 


对 应 的 ARMv8 代码 如 下 所 示 : 


MOV X10 #8000 

ADD X2，X0，X10 

ADDI X1, x0, #16 
LOOP: LDUR D0, [X1. #-16] 

LDUR D2, [Xl,. #-8] 

FADDD 0D4, D0, D2 

STUR D4, [Xx1, #0] 

ADDI KL. XE fe 

CMP X1 ，X2 

otE LOOP 


指令 延迟 指 该 指令 和 使 用 该 指令 结果 的 指令 之 间 所 必须 间隔 的 周期 数 。 假 设 浮 点 指令 的 延迟 如 
下 (以 周期 为 单位 ): 





10 ] < 6.2 > 执行 该 代码 需要 多 少 周期 ? 

10 ] < 6.2 > 对 该 代码 重新 排序 以 减少 阻塞 。 重 排序 以 后 执行 该 代码 需要 多 少 周期 ? (提示 : 可 
以 通过 改变 STUR 指令 的 偏 移 量 来 减少 额外 的 阻塞 -) 

10 ] < 6.2 > 当 循环 中 后 面 迁 代 中 的 一 条 指令 依赖 于 前 面色 代 (同一 循环 ) 产生 的 数据 时 ， 我 
们 称 循环 的 迭代 之 间 存 在 循环 依赖 性 。 分 析 上 面 代码 中 的 循环 依赖 性 。 识 别 其 中 相关 的 程序 
变量 和 汇编 级 寄存 器 。 可 以 忽略 循环 变量 j 

10 ] < 6.2 > 重 写 代码 ， 使 用 寄存 器 保存 迭代 之 间 的 数据 (与 从 主 内 存 中 存储 和 重 载 数据 相反 )。 
指出 代码 在 哪里 阻塞 ， 并 计算 执行 所 需要 的 周期 数 - 

10] <6.2> 第 4 章 中 描述 了 循环 展开 。 循 环 展开 并 优化 上 述 代码 ， 从 而 使 每 个 展开 的 循环 处 
理 三 个 之 前 循环 的 选 代 过 程 。 指 出 代码 在 哪里 阻塞 ， 并 计算 执行 所 需要 的 周期 数 。 

10 ] < 6.2 > 练习 题 6.4.5 中 的 循环 展开 运行 效率 高 ， 因 为 我 们 需要 的 迭代 数 恰巧 为 三 的 倍数 。 
如 果 编 译 时 无 法 获知 要 迭代 的 次 数 ， 那 么 会 发 生 什么 ?如 果 总 的 选 代 次 数 不 是 循环 展开 的 迁 
代 次 数 的 整数 倍 ， 那 么 又 该 如 何 有 效 地 处 理 这 些 选 代 呢 ? 

15 ] < 6.2 > 考虑 在 一 个 两 节点 的 采用 内 存 消息 传递 机 制 的 分 布 式 系统 上 运行 此 代码 。 假 设 我 
们 要 使 用 6.7 节 中 介绍 的 消息 传递 方法 ， 引 入 一 个 新 的 操作 send(x,y) 将 值 y 发 送 给 节点 x， 
以 及 一 个 receive0 操作 来 等 待 接收 传递 给 它 的 消息 。 假 定 send 操作 需要 一 个 周期 来 发 射 (也 
就 是 说 同一 个 节点 中 后 面 的 指令 可 以 在 下 一 个 周期 执行 )， 但 是 接收 节点 需要 几 个 周期 来 接 
收 。receive 指令 将 会 停止 其 所 执行 节点 上 后 续 指令 的 执行 ， 直 到 接收 到 消息 。 你 能 和 否 使 用 这 
样 的 系统 来 加 速 本 例 中 的 代码 ?如 果 可 以 , 那么 可 以 接收 到 消息 的 可 容忍 最 大 延迟 是 多 少 ? 

如 果 不 可 以 ， 为 什么 ? 

考虑 下 面 的 递归 归并 排序 算法 ,这 是 一 种 经 典 的 分 而 治之 算法 。 归 并 排序 (mergesort) 由 John 
Von Neumann 于 1945 年 首次 提出 。 其 基本 思想 是 将 含有 m 个 元 素 的 未 排序 序列 x 分 为 两 个 
子 序列 ， 其 中 每 个 序列 长 度 都 大 约 是 原来 的 一 半 。 然 后 对 每 个 子 序列 重复 类 似 的 动作 ， 直 至 
序列 长 度 为 1。 然后， 再 从 长 度 为 1 的 子 序列 开始 ， 将 两 个 子 序列 归并 为 一 个 排序 后 的 序列 。 


Mergesort(m) 
var list left, right, result 
if Tength(m) < 1 
return m 
else 
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Var middle = length(m) / 2 

for each x in m up to middle 
add x to left 

for each x in m after middle 
add x to right 

left = Mergesort(left) 

right = Mergesort(right) 

result = Merge(left, right) 

return result 


归并 步骤 由 下 面 的 代码 实现 ， 


Merge(left,right) 
var 1ist result 
while length(left) >0 and length(right) > 0 
if first(left) < first(right) 
append first(left) to result 
left = rest(left) 
else 
append first(right) to result 
right = rest(right) 
if Tength(1eft) >0 
append rest(left) to result 
if length(right) 20 
append rest(right) to result 
return result 


[10] <6.2> 假 设 Mergesort 运行 在 具有 个 核 的 多 核 处 理 器 上 ， 且 Y 远 远 小 于 长 度 m。 那 么 
从 Y 和 nm 预期 的 加 速 比 是 多 少 ? 请 画图 表示 。 

[10] <6.2> 接 下 来 ,假设 Y 与 长 度 m 相 等 , 这 对 你 前 面 的 结论 有 何 影响 ? 如 果 要 求 你 获得 
最 佳 加 速 比 (例如 强 比例 缩放 )， 那 么 应 该 如 何 修改 代码 ? 

和 矩阵 乘 在 很 多 应 用 中 扮演 了 重要 的 角色 。 只 有 当 第 一 个 矩阵 的 列 数 和 第 二 个 矩阵 的 行 数 相等 时 ， 
两 个 矩阵 才 可 以 相 乘 。 

假设 有 一 个 mxn 的 矩阵 4， 需 要 乘 以 一 个 nxp 的 矩阵 8。 乘积 为 一 个 m xp 的 矩阵 4B (或 
4.B)。 如 果 令 C=48B, ci.j; 代 表 在 和 矩 阵 C 中 位 置 (iy) 处 的 元 素 ， 其 中 1<i<m 且 
1 </ <p， ew= 加 or xbuy。 请 考察 现在 是 否 可 以 将 C 的 计算 并 行 化 。 假 设 算 阵 在 存储 器 中 
顺序 存放 : a qs, ay, qu, …。 

[10] <6.5 > 假设 我 们 分 别 在 单 核 / 四 核 共享 内 存 的 系统 中 计算 C， 请 问 四 核 相 对 于 单 核 的 预 
期 加 速 比 是 多 少 ? 可 忽略 存储 器 相关 的 问题 。 

[10] <6.5 > 重新 计算 练习 题 6.6.1， 假 设 当 一 行 ( 即 索引 i) 中 的 连续 元 素 被 更 新 时 ， 对 C 的 
更 新 会 因 错误 的 共享 而 引发 cache 缺失 。 

[10] <6.5> 如 何 解 决 可 能 发 生 的 错误 共享 问题 ? 

下 面 的 两 个 不 同 程序 的 片段 同时 运行 在 一 个 包含 4 个 处 理 器 的 SMP ( Symmetric Multicore 
Processor， 对 称 多 核 处 理 器 ) 上 。 假 设 代码 运行 之 前 , x 和 y 的 初 值 均 为 0。 

e 核 1: x=2 

。 核 2: y=2 

@ 核 3: w=x+y+1l 

@ 核 4: z=x+y 

[10] <6.5>w、x、y,z 所 有 可 能 的 结果 分 别 是 什么 ? 对 每 种 可 能 的 情况 ,解释 如 何 达 到 这 些 值 。 
你 需要 检查 所 有 可 能 的 指令 交叉 的 情况 。 
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6.7.2 
6.8 


6.8.1 


6.8.2 


6.9 


6.9.1 


6.9.2 


6.9.3 


6.9.4 


[5 ] < 6.5 > 怎样 才能 使 执行 更 具 确定 性 ， 从 而 只 产生 一 组 可 能 的 值 。 

哲学 家 就 餐 问 题 是 一 个 经 典 的 同步 和 并 发 问题 。 该 问题 通常 描述 为 哲学 家 们 坐 在 圆桌 周围 并 且 

只 做 两 件 事 之 一 : 吃饭 或 思考 。 吃 饭 时 ， 不 思考 ,反之 亦 然 。 在 圆桌 中 心 有 一 碗 通 心 粉 。 每 

两 个 哲学 家 之 间 有 一 只 叉子 ， 这 样 每 个 哲学 家 左面 有 一 把 叉子 ， 右 面 也 有 一 把 叉子 。 按 常规 ， 

哲学 家 需要 两 把 叉子 才能 吃 通 心 粉 ， 而 且 只 能 使 用 紧 挨 着 他 左右 的 两 把 又 子 。 每 个 哲学 家 不 

能 和 其 他 人 说 话 。 

[10] < 6.7> 描 述 没有 任何 哲学 家 可 以 吃 通 心 粉 的 情景 (例如 ， 绝 食 )。 什 么 样 的 事件 序列 会 

导致 该 情景 的 产生 ? 

[10] < 6.7> 解释 如 何 通过 引入 优先 级 的 概念 来 解决 这 一 问题 ?能 否 保证 每 个 哲学 家 都 得 到 公 

平 对 待 ?解释 原因 。 

现在 假定 有 一 个 服务 员 负责 为 哲学 家 们 分 配 叉子 。 只 有 经 过 服务 员 人 允许， 哲学 家 才 可 以 拿 起 又 

子 。 服 务 员 了 解 所 有 叉子 的 状态 。 并 且 ， 如 果 我 们 要 求 所 有 哲学 家 总 是 先 请 求 拿 起 左边 的 叉 

子 再 请 求 拿 起 右边 的 叉子 ， 这 样 就 可 以 保证 避免 死 锁 。 

[10] < 6.7> 实现 请 求 时 ， 可 以 将 请 求 放 人 一 个 队列 ， 也 可 以 周期 性 地 重 试 请 求 。 采 用 队列 方 

式 时 ， 请 求 可 以 按 收 到 的 顺序 依次 处 理 。 但 问题 是 即使 请 求 排 在 队列 的 最 前 面 ， 我 们 也 不 能 保 

证 总 是 为 其 提供 服务 (由 于 资源 的 不 可 用 )。 描 述 这 样 一 个 场景 ，1 个 队列 ，5 个 哲学 家 ， 即 使 

有 的 哲学 家 左右 的 两 把 叉子 都 可 用 ， 但 仍然 不 允许 为 其 服务 (因为 他 的 请 求 排 在 队列 的 后 部 )。 

[10] < 6.7 > 如 果 我 们 周期 性 地 重复 请 求 ， 直 到 资源 变 为 可 用 ， 以 这 种 方式 实现 请 求 是 否 能 够 

解决 练习 题 6.8.3 中 的 问题 ?解释 原因 。 

考虑 下 面 三 种 CPU 组 成 : 

ee CPU SS : 一 个 双核 超标 量 微 处 理 器 ， 支 持 在 两 个 功能 单元 (Function Unit，FU) 上 的 乱 序 
发 射 。 每 个 核 一 次 只 能 运行 单个 线程 。 

e。 CPU MT : 一 个 细 粒 度 多 线程 处 理 器 ， 支 持 来 自 两 个 线程 的 指令 并 发 执行 (也 就 是 说 ， 有 
两 个 功能 单元 )， 尽 管 每 个 周期 只 有 一 个 线程 的 指令 可 以 发 射 。 

e CPU SMT: SMT 处 理 器 允许 来 自 两 个 线程 的 指令 并 发 执行 (也 就 是 说 ， 有 两 个 功能 单元 )， 
并 且 每 个 周期 可 以 发 射 一 个 线程 或 两 个 线程 的 指令 。 

假定 在 CPU 上 有 两 个 线程 X 和 Y 在 运行 . 包括 下 面 的 操作 : 
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A1: 需 三 个 周期 执行 B1: 需 两 个 周期 执行 

A2: 无 依赖 B2: 与 B1 的 一 个 功能 单元 冲突 

A3: 与 A1 的 一 个 功能 单元 冲突 B3: 取决 于 B2 的 结果 

A4: 取决 于 A3 的 结果 B4: 无 依赖 并 且 需 要 两 个 周期 执行 583 
除非 特别 标记 或 者 遇 到 冒险 ， 假 定 所 有 的 指令 都 是 单 周 期 执行 。 


[10] < 6.4> 如 果 使 用 一 个 SS CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 因 冒 险阻 塞 浪费 的 发 
射 槽 有 多 少 ? 

[10 ] < 6.4 > 如 果 使 用 两 个 SS CPU， 执行 这 两 个 线程 需要 多 少 个 周期 ? 因 冒 险阻 塞 浪费 的 发 
射 模 有 多 少 ? 

[10] < 6.4> 如 果 使 用 一 个 MT CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 因 冒 险阻 塞 浪费 的 发 
射 槽 有 多 少 ? 

[10 ] < 6.4> 如 果 使 用 一 个 SMT CPU， 执行 这 两 个 线程 需要 多 少 个 周期 ? 因 冒 险阻 塞 浪费 的 
发 射 权 有 多 少 ? 
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6.10.1 
6.10.2 


6.11 


6.12.2 
6.13 


6.13.1 
6.14 


6.14.1 


虚拟 化 软件 正在 用 于 降低 管理 高 性 能 服务 器 的 成 本 。 如 VMWare .Microsoft 和 IBM 等 公司 都 开 
发 了 一 系列 虚拟 化 产品 。 常 用 的 概念 ( 见 第 5 章 ) 是 管理 程序 层 ， 它 位 于 硬件 和 操作 系统 之 
间 ， 使 多 个 操作 系统 可 以 共享 同一 物理 硬件 。 管 理 程序 层 负责 分 配 CPU 和 存储 器 资源 ， 同 时 
处 理 通常 由 操作 系统 完成 的 服务 (如 1/0)。 
虚拟 化 为 底层 (宿主 ) 硬件 提供 了 一 个 抽象 层 ， 以 承载 操作 系统 和 应 用 软件 。 这 使 得 我 们 重新 思 
考 未 来 如 何 设计 多 核 和 多 处 理 器 系统 以 支持 多 个 操作 系统 并 发 地 共享 CPU 和 存储 器 。 
[30] < 6.4> 选 择 目前 市 场 上 的 两 种 管理 程序 ， 对 比 它 们 是 如 何 虚拟 化 和 管理 底层 硬件 的 。 
[15] < 6.4> 为 了 更 好 地 满足 未 来 多 核 CPU 平台 的 资源 需求 ， 哪 些 措施 是 必需 的 ? 例如 ， 多 
线程 技术 是 否 可 以 减轻 计算 资源 间 的 竞争 ? 
我 们 希望 尽 可 能 高 效 地 执行 下 面 的 循环 。 假 设 有 两 种 不 同 的 机 器 ， 一 种 是 MIMD， 另 一 种 是 
SIMD。 
for (i=0; i<2000; i++) 

for (j=0; j<3000; j++) 

X_array[i][j] = Y_array[j][i] + 200; 

[10] <6.3 > 对 于 四 个 CPU 的 MIMD 机 器 ， 请 给 出 每 个 CPU 上 可 能 执行 的 LEGv8 指令 序列 。 
此 MIMD 机 器 的 加 速 比 是 多 少 ? 
[20 ] < 6.3> 对 一 个 宽度 为 8 的 SIMD 机 器 ( 即 8 个 并 行 的 SIMD 功能 单元 )， 使 用 你 自己 的 
LEGv8 SIMD 扩展 指令 编写 一 个 汇编 程序 以 执行 该 循环 。 比 较 SIMD 和 MIMD 机 器 上 执行 的 
指令 数量 。 
脉动 阵列 是 MISD 机 的 一 个 例子 ， 是 一 个 由 数据 处 理 单元 构成 的 流水 线 网 络 或 “ 波 阵 面 "。 这 
些 单元 都 不 需要 程序 计数 器 ， 因 为 执行 是 通过 数据 到 达 触 发 的 。 时 钟 脉动 阵列 在 “锁定 步骤 " 
中 计算 ， 每 个 处 理 器 承担 交替 的 计算 和 通信 阶段 。 
[10 ] < 6.3> 分 析 脉 动 阵列 的 各 种 实现 机 制 (可 以 在 互联 网 或 出 版 物 中 查找 相关 资料 )， 尝 试 
用 MISD 模型 对 上 一 题 中 的 循环 进行 编程 ， 讨 论 遇 到 的 困难 。 
[10] <6.3> 分 析 MISD 和 SIMD 机 之 间 的 相似 点 和 不 同 点 。 用 数据 级 并 行 中 的 术语 回答 。 
假设 我 们 想 在 本 章 中 描述 的 NVIDIA 8800 GTX GPU 上 执行 DAXP 循环 ( 6.3.2 节 的 ARMv8 
汇编 代码 )。 该 问题 中 ， 假 定 所 有 的 算术 操作 都 在 单 精 度 浮 点 数 上 进行 ( 故 重 命名 为 循环 
SAXPY)。 假 定 指令 的 执行 周期 数 如 下 所 示 。 


ES 
5 | 3 4 ] 

















[20 ] < 6.6> 描述 在 8 核 处 理 器 中 如 何 构建 Warp 来 完成 SAXPY 循环 ? 

从 https://developer.nvidia.com/cuda-toolkit 下 载 CUDA Toolkit 和 SDK。 确 保 使 用 emurelease 
( Emulation Mode) 版 本 (此 版 本 运行 时 可 以 不 需要 实际 的 NVIDIA 硬件 )。 编 译 SDK 中 提供 
的 示例 程序 ， 并 确认 它们 运行 在 仿真 器 上 。 

[ 90 ] < 6.6 > 以 SDK 的 示例 程序 (template) 为 起 点 ,编写 一 个 完成 下 列 向 量 操 作 的 CUDA 程序 : 
1.a -5 (向 量 减 法 ) 

2.4a*b (向 量 点 积 ) 


两 个 向 量 a= [ a, aa …, as ] 和 b=[ ,bs,…,b,] 的 点 积 定义 如 下 : 


站 
4 = Dab = ab + ob + + anb, 


i 
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6.14.2 


6.15.1 
6.16 


6.16.1 


6.16.2 


6.17 


6.17.1 
6.17.2 


6.18.1 


6.18.2 


6.18.3 


提交 演示 每 个 操作 的 程序 代码 ， 并 验证 结果 的 正确 性 。 

[ 90 ] < 6.6> 假设 有 可 用 的 GPU 硬件 ， 请 完成 对 程序 的 性 能 分 析 ， 查 看 在 向 量 大 小 不 同 的 情 
况 下 GPU 和 CPU 版 本 的 计算 时 间 ， 解 释 可 能 的 各 种 结果 。 

AMD 最 近 宣布 将 图 形 处 理 单元 与 它们 的 x86 内 核 集成 到 一 个 封装 中 (尽管 每 个 核 都 有 不 同 的 
时 钟 )。 这 是 异 构 多 处 理 器 系统 的 一 个 例子 。 其 中 关键 的 设计 是 允许 CPU 和 GPU 之 间 的 高 速 
数据 通信 。 在 AMD 的 Fusion 体系 结构 之 前 ，CPU 与 GPU 芯片 之 间 需 要 通信 。 目 前 的 计划 
是 采用 多 个 (至少 16 个 ) PCIe 来 促进 通信 。 

[25 ] < 6.6 > 比较 这 两 种 互联 技术 的 带宽 和 延迟 。 

参照 图 6-14b 中 给 出 的 三 阶 n 维 立方 体 拓扑 结构 (将 8 个 节点 互 连 )。 维 立 方 体 拓扑 的 一 个 优 
势 是 在 部 分 互 连 损坏 的 情况 下 依然 可 以 保持 连接 性 。 

[10 ] <6.8> 设 计 一 个 公式 , 计算 n 维 立方 体 中 最 多 多 少 互 连 损坏 时 ， 我 们 仍然 可 以 保证 有 一 
个 未 间断 的 链接 存在 ， 以 连接 n 维 立 方 体 中 的 任何 节点 。 

[10] <6.8 > 比较 n 维 立方 体 和 全 互联 网 络 的 可 靠 性 。 画 图 表示 ,将 可 靠 性 的 比较 作为 两 个 拓 
扑 中 增加 的 链 路 数 的 函数 。 

基准 测试 程序 用 于 在 指定 的 计算 平台 上 运行 有 代表 性 的 工作 负载 ， 从 而 比较 不 同系 统 之 间 的 性 
能 。 在 本 题 中 ， 我 们 将 比较 两 种 基准 测试 程序 集 : Whetstone CPU 基准 测试 程序 和 PARSEC 
基准 测试 集 。 从 PARSEC 中 选择 一 个 程序 (所 有 程序 都 可 从 网 上 免费 下 载 )。 考 虑 6.11 节 描 
述 的 各 个 系统 上 运行 Whetstone 的 多 个 份 副 本 或 PARSEC 基准 测试 程序 的 情况 。 

[ 60 ] < 6.10 > 两 种 工作 负载 运行 在 这 些 多 核 系 统 上 时 的 本 质 区 别 是 什么 ? 

[60 ] < 6.10> 对 于 Roofline 模型 ， 分 析 在 运行 这 些 基准 测试 程序 时 ， 运 行 结果 对 工作 负荷 中 
共享 和 同步 数量 的 依赖 性 有 多 大 ? 

在 计算 稀 政和 矩阵 时 ， 存 储 器 层次 结构 中 的 延迟 变 得 越发 重要 。 由 于 稀疏 矩阵 缺乏 矩阵 操作 中 常 
见 的 空间 局 部 性 ， 因 此 需要 新 的 矩阵 表示 方法 。 

最 早 的 稀 朴 矩阵 表示 方法 之 一 是 Yale 稀 朴 矩阵 格式 ， 采 用 三 个 一 维 数组 存储 一 个 初始 的 四 xn 
和 矩阵 ，Mf 为 三 个 一 维 数组 的 行 。 令 R 代表 M 中 的 非 零 项 数目 。 我 们 构造 一 个 长 度 为 R 的 数组 
4 来 存储 M 中 的 所 有 非 零 项 (按照 从 左 到 右 、 从 上 到 下 的 顺序 )。 再 构造 第 二 个 数组 14， 长 
度 为 m+ 1 ( 即 每 行 一 项 ， 加 1)。/14(i) 包含 第 i 行 中 第 一 个 非 零 项 在 4 中 的 索引 号 。 原 矩阵 
中 第 i 行 的 元 素 从 4(L4(D) 扩展 到 4(U4(i + 1)-1)。 第 三 个 数组 4 包含 4 中 每 个 元 素 的 列 索引 
号 ， 因 此 其 长 度 也 为 R。 

[15] < 6.10 > 分 析 下 面 的 稀疏 矩阵 YX， 并 编写 C 程序 以 Yale 稀疏 矩阵 格式 存储 。 


Row 0， 0] 
Row 0] 
Row 0] 


1 

条 1 

六 0， 
Row 4 [2, 0， 2] 
Row 5 3。 7] 
Row 6 .0, 1] 


[10] < 6.10 > 在 存储 空间 方面 ,假定 矩阵 中 的 每 个 元 素 都 是 单 精 度 浮 点 数 ， 计 算 用 Yale 稀 
朴 矩 阵 格式 存储 上 面 矩 阵 所 需 的 总 存储 空间 。 

[15] < 6.10> 对 下 面 的 矩阵 奈 和 矩阵 了 进行 矩阵 乘 。 

路 机 

将 该 计算 放 入 循环 中 ， 并 对 执行 过 程 进 行 计时 。 确 保 增加 循环 执行 的 次 数 ， 以 在 时 间 测量 中 获得 
较 好 的 分 辩 率 。 比 较 原 始 表示 的 矩阵 的 运行 时 间 和 Yale 稀 朴 矩阵 格式 表示 的 矩阵 的 运行 时 间 。 
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6.18.4 [15] < 6.10 > 你 是 否 能 够 找到 更 加 有 效 的 稀 朴 矩阵 表示 方法 (考虑 空间 和 计算 开销 ) ? 

6.19 ”在 未 来 的 系统 中 ， 我 们 期 待 能 够 看 到 由 异 构 CPU 构成 的 异 构 计算 平台 。 我 们 已 经 看 到 伐 人 式 处 
理 市 场 中 出 现 了 一 些 在 多 芯片 模块 封装 中 同时 包含 浮 点 DSP 和 微 控制 器 CPU 的 系统 。 
假定 你 有 三 类 CPU: 

e CPU A: 每 周期 可 执行 多 条 指令 的 中 速 多 核 CPU (有 浮 点 单元 )。 
e CPU B: 每 周期 可 执行 单条 指令 的 快速 单 核 整 型 CPU (例如 ， 无 浮 点 单元 )。 











587 e CPU C: 每 周期 可 执行 相同 指令 多 个 副本 的 慢 速 向 量 CPU (具备 浮 点 能 力 )。 





假设 我 们 的 处 理 器 以 下 面 的 频率 运行 : 


3GHz 250MHz 




















每 个 时 钟 周期 ，CPU A 可 以 执行 2 条 指令 ，CPU B 可 以 执行 1 条 指令 ，CPU C 可 以 执行 8 条 
指令 (尽管 是 相同 指令 )。 假 定 所 有 的 操作 可 以 在 一 个 单 周期 延迟 中 完成 执行 ， 且 没有 任何 
冒险 。 
三 个 CPU 均 可 执行 整 型 算术 ， 尽 管 CPU B 不 能 进行 浮 点 运算 -CPU A 和 B 具有 与 LGEv8 处 理 
器 相似 的 指令 集 。CPU C 仅 能 执行 浮 点 加 、 减 以 及 存储 器 存 、 取 操作 。 假 定 所 有 CPU 均 可 访 
问 共享 存储 器 ， 并 且 同 步 开销 为 零 。 
你 的 任务 是 比较 两 个 矩阵 在 和 了， 每 个 都 包含 1024 x 1024 个 浮 点 元 素 。 输 出 应 该 是 x 中 的 值 大 
于 或 等 于 y 中 的 值 的 索引 数 的 个 数 。 
6.19.1 [10] <6.11> 请 描述 如 何 将 问题 划分 到 三 个 不 同 的 CPU 上 ， 以 获得 最 住 性 能 。 
6.19.2 [10] < 6.11 > 你 会 向 向 量 CPU C 中 增加 何 种 指令 ， 以 获得 更 好 的 性 能 ? 
6.20 本题 着 眼 于 给 定 最 大 事务 处 理 速率 的 系统 中 发 生 的 排队 数量 ， 以 及 事务 平均 观察 到 的 延迟 时 间 。 
延迟 包括 服务 时 间 (由 最 大 速率 计算 得 出 ) 和 队列 时 间 。 
假设 四 核 计算 机 系统 能 够 以 每 秒 所 要 求 速率 的 最 大 稳定 状态 速率 进行 数据 库 查 询 。 同 时 假 
定 ， 每 个 事务 平均 花费 固定 的 时 间 来 处 理 。 下 表 给 出 了 几 对 事务 延迟 和 处 理 速率 。 


芒 大 事务 处 理 速 率 


























1ims 5000/sec 

__2ms 5000/sec 

[a 10000/sec 
2ms 10000/sec 





对 于 表 中 的 每 一 对 数据 ， 回 答 下 面 的 问题 : 

6.20.1 [10] < 6.11 > 在 任意 给 定 的 时 刻 ， 平 均 有 多 少 请 求 被 处 理 ? 

6.20.2 [ 10 ] < 6.11 > 如 果 移 到 八 核 系统 中 ， 理 想 情况 下 ， 系 统 的 吞吐 率 将 发 生 什 么 变化 (例如 ， 计 
算 机 每 秒 处理 多 少 请 求 ) ? 











588] ”6.20.3 [10] < 6.11 > 讨论 为 什么 通过 简单 增加 核 数 很 少 能 获得 这 种 加 速 ? 














: 众 答 户 姓 到 云 413 


江 存 处 理 器 











附录 A | 


Computer Organization and Design: The Hardware/Software Interface, ARM Edition 


逻辑 设计 基础 





A.1 引言 


附录 A 简要 讨论 了 逻辑 设计 的 基本 原理 。 这 部 分 内 容 不 能 替代 | 我 一 直 很 吉 欢 这 个 记 : 布尔 。 
相关 的 逻辑 设计 课程， 也 不 能 使 你 设计 出 重要 的 逻辑 系统 。 但 如 果 | Cee sone le 
你 很 少 或 根本 没有 接触 过 逻辑 设计 ， 那 么 本 附录 可 以 为 你 提供 足够 | Sbanon yz 芭 之 帮 ， 
的 背景 知识 ， 以 便 了 解 本 书 中 提 到 的 内 容 。 此 外 ， 如 果 你 想 了 解 计 | cwee aooke 在 19 如 
算 机 是 如 何 实现 的 ， 那 么 本 附录 也 可 以 为 你 提供 有 用 的 介绍 。 如 果 | 和 和 人 人 作 了 人 下 二 和 
你 对 附录 之 外 的 内 容 还 感到 好 奇 ， 那 么 附录 最 后 的 参考 文献 可 以 提 
供 更 多 的 信息 。 

A.2 节 介绍 了 构造 逻辑 的 基础 单元 ， 即 门 。A.3 节 中 使 用 门 来 构建 简单 的 组 合 多 辑 系 
统 (不 含 存储 器 )。 如 果 你 对 逻辑 设计 或 数字 电路 有 所 了 解 ， 那 么 对 前 两 节 内 容 就 不 会 陌生 。 
A.5 节 介绍 了 如 何 利用 A.2 节 和 A.3 节 中 的 概念 来 设计 LEGv8 处 理 器 中 的 ALU。A.6 节 介绍 
了 如 何 设计 快速 加 法 器 (如 果 对 该 部 分 不 感 兴 趣 ， 可 以 直接 跳 过 )。A.7 节 简 单 介绍 了 时 钟 ， 
了 解 时 钟 (时 序 ) 对 于 讨论 存储 元 件 如 何 工作 是 必需 的 。A.8 节 介绍 了 存储 元 件 ，A.9 节 进行 
了 扩充 并 重点 介绍 了 随机 存 取 存储 器 。 这 两 节 介绍 了 存储 器 的 特点 一 这 对 于 理解 如 何 使 用 
存储 器 很 重要 (如 第 4 章 中 的 描述 )， 而 且 描述 了 存储 器 层次 结构 (第 5 章 中 的 描述 ) 的 背景 
知识 。A.10 节 介绍 了 有 限 状 态 机 (时 序 逻 辑 块 ) 的 设计 和 使 用 。 如 果 你 计划 阅读 附录 C， 那 
么 必须 了 解 A.2 ~ A.10 节 所 有 的 内 容 。 如 果 你 只 是 希望 掌握 第 4 章 的 内 容 ， 那 么 可 以 直接 
跳 到 A.11 节 。A.11 节 是 为 那些 想 要 更 深入 理解 时 钟 策略 和 时 序 的 人 准备 的 ， 这 一 节 介绍 了 
边缘 触发 时 钟 的 工作 原理 ,引信 了 另 一 种 时 序 方法 ， 并 简单 介绍 了 异步 输入 的 同步 问题 。 

附录 A 中 ， 对 于 一 些 适当 的 逻辑 片段 ,我 们 也 给 出 了 其 对 应 的 Verilog 描述 ( A.4 节 将 
介绍 Verilog 请 言 )。 更 为 完整 的 Verilog 教程 可 以 在 本 书 配套 的 网 站 上 找到 。 


A.2 门 、 真 值 表 和 逻辑 方程 式 


现代 计算 机 的 内 部 电路 为 数字 电路 。 数 字 电 路 仅 工作 在 两 个 电压 ， 即 高 电压 和 低 电压 。 
所 有 其 他 电压 值 都 是 暂时 的 ， 只 在 高 低 电压 值 间 的 转换 过 程 中 产生 。( 正 如 本 节 稍 后 将 要 讨 
论 的 ， 数 字 电路 设计 中 存在 的 一 个 陷阱 就 是 在 尚未 明确 是 高 电压 还 是 低 电 压 时 ， 就 对 信号 进 
行 采样 。) 计算 机 是 数字 电路 这 一 事实 也 是 计算 机 采用 二 进 制 数 的 一 














有 效 信号 : 信号 为 逻辑 真 


个 关键 原因 ， 因 为 二 进 制 系统 和 数字 电路 中 内 在 的 抽象 是 相 匹配 的 。 | 1， 


在 各 种 逻辑 大 家 庭 中 ， 两 个 电压 值 间 的 关系 和 对 应 的 值 有 所 不 同 。 
因此 ， 我 们 不 去 关注 电压 值 的 高 低 ， 而 只 讨论 信号 是 〈 逻 辑 ) 真 或 1 
或 有 效 (asserted)， 以 及 信号 是 逻辑 ) 假 或 0 或 无 效 ( deasserted)。 
值 0 和 1 间 也 称 为 互补 或 反 相 。 


名 ”Shannon (香农 )， 美 国 数学 家 ， 信 息 论 创始 人 。 一 一 译 者 注 


无 效 信和 号: 信号 为 逻辑 假 
或 0。 
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逻辑 电路 根据 是 否 包含 存储 器 件 分 为 两 大 类 。 不 包含 存储 器 件 | 组 合 逻辑 :组合 运 辑 不 包 
的 逻辑 电路 称 为 组 合 有 逻辑， 组 合 逻 辑 的 输出 只 取决 于 当前 的 输入 。 | 念 在 储 元 件 ， 因 此 相同 的 
而 在 包含 存储 器 件 的 电路 中 ， 输 出 不 仅 与 当前 的 输入 有 关 ， 而 且 与 【输入 广 千 相 同 的 输出 。 
存储 器 件 中 存储 的 值 有 关 ， 其 中 存储 的 值 称 为 逻辑 电路 的 状态 。 在 
A.2 节 和 A.3 节 中 ,我 们 只 介绍 组 合 逻辑 ( combinational logic)。 在 sh 
A.8 节 中 介绍 完 各 种 存储 元 件 后 ,我 们 再 介绍 如 何 设计 包含 电路 状 。 | 于 答 入 和 和 当前 看 信件 的 
态 的 时 序 逻 辑 (sequential logic)。 内 容 。 


A.2.1 真 值 表 


由 于 组 合 逻辑 不 包含 存储 元 件 ， 因 此 完全 可 以 为 每 个 可 能 的 输入 集 定 义 对 应 的 输出 值 。 
通常 用 页 值 表 来 描述 组 合 逻辑 。 对 一 个 包含 了 个 输入 的 组 合 电路 ， 有 2" 种 可 能 的 输入 组 合 ， 
因此 真 值 表 中 有 2" 项 。 每 一 项 都 指定 了 该 特定 输入 组 合 的 所 有 输出 值 。 


| 例题 | 真 值 表 . 
假设 一 个 逻辑 函数 包含 三 个 输入 4、B、C 和 三 个 输出 D、E、F。 函 数 如 下 定义 : 如 果 

有 一 个 输入 为 真 ， 则 D 为 真 ; 如 果 有 两 个 输入 为 真 ， 则 已 为 真 ; 如 果 三 个 输入 都 为 真 ， 则 书 

为 真 。 请 写 出 该 函数 的 真 值 表 。 

| 答案 | 真 值 表 包含 2 = 8 项 。 如 下 所 示 : 
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真 值 表 可 以 描述 任意 组 合 逻 辑 函 数 ， 但 是 真 值 表 的 规模 ( 随 着 输入 的 增加 ) 增长 很 快 ， 可 
能 会 变 得 不 容易 理解 。 有 时 ， 我 们 需要 构造 一 个 逻辑 函数 ， 其 中 很 多 输入 组 合 的 结果 均 为 0， 
此 时 我 们 只 需要 描述 真 值 表 中 非 0 的 输出 组 合 。 这 种 方法 在 第 4 章 和 附录 C 中 使 用 。 


A.2.2 布尔 代数 


另 一 种 表达 组 合 逻 辑 函 数 的 方法 是 使 用 逻辑 方程 式 。 这 可 以 通过 使 用 布尔 代数 (以 19 
世纪 数学 家 布尔 的 名 字 命名 ) 来 完成 。 在 布尔 代数 中 ， 所 有 的 变量 均 取 值 为 0 或 1， 并 且 典 
型 的 表达 式 中 包含 如 下 三 种 操作 : 

e 或 (OR) 操作 ， 记 为 +， 例 如 4+B。 如 果 任 意 一 个 变量 为 1， 则 或 操作 的 结果 为 1。 

由 于 任意 一 个 操作 数 为 1 结果 就 为 1， 因此 或 操作 也 被 称 为 逻辑 和 。 
。 与 (AND) 操作 ， 记 为 ， 例 如 4 . B。 仅 当 所 有 输入 均 为 1 时， 与 操作 的 结果 才 为 
1。 由 于 所 有 操作 数 为 1 时 结果 才 为 1， 因 此 与 操作 也 称 为 远 辑 乘 。 
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。 非 (NOT) 操作 ， 记 为 4， 如 果 输 入 为 0， 则 非 操作 的 结果 为 1。 对 逻辑 值 执行 非 操 作 
会 导致 值 的 反 转 ( 若 输入 为 0， 则 输出 为 1， 反 之 亦 然 )。 

布尔 代数 中 有 几 条 定律 对 处 理 逻 辑 方程 式 很 有 帮助 。 

。 同一 律 : 4+0=4,4'1=4 

e 0/1 律 : 4+1=1,4:0=0 

e 互补 律 : 4+ 了 =14.4=0 

e 交换 律 : 4+B=B+4,4.B=B*4 

e 结合 律 : 4+(B+C)=(d+B)+C 4 (BCO=Gd BC 

e 分 配 律 : 4.(B+C)=(C+B)+(A+C,4+(B.C=Cd+B) (4+C) 

此 外 ， 还 有 两 条 很 有 用 的 定理 ， 称 为 德 ， 摩根 律 ， 将 在 练习 题 中 进行 深入 讨论 。 

任何 逻辑 函数 都 可 以 写成 一 系列 方程 式 ， 其 中 等 式 的 左边 为 输出 ， 等 式 右边 为 变量 及 上 
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述 三 种 操作 符 组 合成 的 公式 。 


| 例题 | 逻辑 方程 式 a 
请 写 出 上 个 例题 中 催 辑 函数 D、E、F 的 逻辑 等 式 。 
| 答案 | D 的 逻辑 方程 式 为 : 





D=A+B+C 
五 的 逻辑 方程 式 为 : 
F=A*B:C 
天 需要 一 点 技巧 。 将 其 分 为 两 部 分 : E 肯定 为 真 的 情况 (三 个 输入 中 两 个 必须 为 真 ), E 不 能 
为 真 的 情况 (三 个 输入 都 不 为 真 )。 因 此 EE 可 以 描述 为 : 
E=((4:B)+(4*:C)+(B:C) :B.C) 
我 们 也 可 以 通过 另 一 种 方法 推出 E。 考 虑 到 只 有 当 两 个 输入 为 真 时 E 才 为 真 ， 因 此 我 们 可 
以 将 巨 写成 三 个 可 能 的 式 子 的 或 操作 ， 其 中 每 个 式 子 中 有 两 个 真 输入 与 一 个 假 输入 ， 如 下 
所 示 : 
E=(4.B:'C)+(4.C'B)+(B.C.A) 
练习 题 中 将 验证 两 个 逻辑 等 式 是 等 价 的 。 





在 Verilog 中 ,我 们 可 以 使 用 赋值 语句 来 描述 组 合 逻 辑 ， 这 部 分 将 在 A-4 节 描 述 。 我 们 
可 以 使 用 Verilog 中 的 蜡 或 操作 来 定义 E: 
sign EE = th BtA CA 
这 也 是 另外 一 种 描述 逻辑 函数 的 方法 。D 和 下 的 表达 更 加 简单 ， 与 C 代码 类 似 ; 
D=A|B|C,F=A&BE&E&C 


A.2.3 门 


逻辑 电路 是 由 实现 基本 逻辑 功能 的 门 ( gate) 构成 的 。 例 如 , 与 ”| 门 : 实现 基本 逻辑 功能 的 
门 实现 与 功能 ,或 门 实现 或 功能 。 因 为 AND 和 OR 操作 是 可 交换 、 | 器 件 ， 如 与 门 、 或 门 * 
可 结合 的 操作 ， 因 此 与 门 、 或 门 可 以 有 多 个 输入 ， 输 出 为 所 有 输入 
的 AND、OR 操作 的 结果 。NOT 操作 通过 一 个 反 相 器 实现 ， 只 有 一 个 输入 。 这 三 种 逻辑 门 
的 标准 表示 形式 如 图 A-2-1 所 示 。 
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在 描述 非 门 时 ， 相 比 明确 地 画 出 一 个 反 相 器 ， 更 实用 的 方法 是 在 (人 逻辑 门 的 ) 相应 的 输 
入 或 输出 上 加 一 个 “气泡 ”"， 表 示 将 对 应 的 输入 或 输出 取 反 。 例 如 ， 图 A-2-2 给 出 了 4+8 的 
逻辑 图 ， 左 侧 使 用 了 一 个 反 相 器 ， 而 右 侧 的 输入 和 输出 使 用 “气泡 ”表示 取 反 。 














= 


图 A-2-1 从 左 到 右 ， 依 次 为 与 门 、 或 门 、 
非 门 的 标准 表示 形式 。 每 个 门 
的 左 侧 信号 为 输入 ， 右 侧 为 输 
出 。 与 门 和 或 门 各 有 两 个 输入 
信号 ， 非 门 只 有 一 个 输入 信号 


i 

图 A-2-2 4+8 的 逻辑 门 实现 ， 左 边 使 用 一 
个 反 相 器 ， 右 边 使 用 了 “气泡 ” 
输入 和 输出 。 该 逻辑 函数 可 以 简 
化 为 4-B， 或 使 用 Verilog 语言 
Rs 一 弓 来 表示 


任何 逻辑 函数 者 可 以 通过 与 门 、 或 门 和 非 门 来 构造 ， 练 习题 中 要 求 使 用 这 些 门 来 实现 一 
此 常见 的 逻辑 本数 。 下 一 节 中 ， 我 们 将 看 到 如 何 使 用 这 些 门 来 实现 任意 的 外 辑 丽 数 。 

事实 上 ， 所 有 逻辑 函数 都 可 以 通过 单一 的 某 种 门 来 实现 ， 只 
要 这 种 门 是 反 相 的 。 两 种 常见 的 反 相 门 为 或 非 门 (NOR) 和 与 非 门 
(NAND)， 分 别 对 应 于 或 门 的 取 反 和 与 门 的 取 反 。 或 非 门 和 与 非 门 称 
为 万 能 门 ， 因 为 任何 逻辑 函数 都 可 以 通过 其 中 的 一 种 门 来 实现 。 练 “| 与 非 站 ;人 出 取 反 的 与 站 
习题 将 对 此 做 进一步 探索 。 





A.3 组 合 逻辑 


| 或 非 门 ; 给 出 取 反 的 或 门 。 





本 节 将 介绍 几 个 频繁 使 用 的 较 大 的 逻辑 块 。 同 时 ， 我 们 将 讨论 结构 化 逻辑 块 的 设计 ， 这 
些 逻 辑 块 可 以 通过 一 种 翻译 程序 自动 由 逻辑 方程 式 或 真 值 表 来 实现 。 本 节 最 后 讨论 逻辑 块 组 


成 的 阵列 。 
A.3.1 译 码 器 


译 码 器 ( decoder) 是 构造 大 型 逻辑 单元 时 经 常用 到 的 一 种 逻辑 | 译 码 器 : 一 种 远 辑 块 ， 有 
块 。 最 常见 的 译 码 器 有 个 输入 ，2" 个 输出 ， 对 每 一 种 输入 组 合 ， | "位 输入 和 2 个 输出 ， 对 
只 有 一 个 输出 信号 置 为 1。 这 种 译 码 器 将 N 位 输入 转换 为 对 应 于 N | 每 一 种 丛 入 组 合 ， 只 有 一 


位 输入 的 二 进 制 值 的 信号 。 因 此 ， 译 码 器 的 输出 通常 可 以 编号 为 


个 输出 信号 有 效 。 


Out0，Outl ，…，Out2”-1 之 类 的 形成 。 如 果 输 入 数据 对 应 的 值 为 i， 

则 Outi 被 置 为 1， 其 他 所 有 的 输出 信号 均 为 0。 图 A-3-1 显示 了 一 个 3 位 译 码 器 及 其 真 值 表 。 
由 于 该 译 码 器 有 3 个 输入 ，8 (2 ) 个 输出 ， 因 此 也 被 称 为 3-8 译 码 器 。 相 对 于 译 码 器 ， 编 码 
器 的 功能 正好 相反 ， 编 码 器 有 2" 个 输入 和 个 输出 。 


日 ” 原 书 为 2n 位 输出 ， 应 为 笔 误 。 一 一 译 者 注 
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Fe 
on ENENCCIC rn 
Out2 0 0 0 0 0 0 0 0 0 0 和 2 
0 0 迁 D D 0 0 D 0 Wl 和 尝 
al eel Er ol a ln | | 
Ou4 | 0 1 1 0 刘 ' | .机 0 1 0 [下 归 济 
ou5 | 1 | 0 0 0 |o | 0 | 0 0 -看 
ey 0 时 0 | 0 番 虎 : 0 0 0 0 
gy 1 琉 各 屋 0 0 0 0 0 0 
1 1 d 1 0 0 0 0 0 0 0 
a) 3 位 译 码 器 b) 3 位 译 码 器 的 真 值 表 
图 A-3-1 3 位 译 码 器 包含 3 个 输入 (12、11、10) 和 8 个 输出 (Out0 一 Out7 )。 正 如 真 值 表 所 示 ， 只 


有 与 输入 信号 二 进 制 值 对 应 的 输出 为 真 ( 1 )。 译 码 器 输入 端的 3 表示 输入 信号 为 3 位 宽 


A.3.2 ”多 路 选择 器 


第 4 章 中 经 常用 到 一 种 逻辑 块 : 多 路 选择 器 ( multiplexor)。 多 | 选择 信号 ， 也 称 为 控制 信 
路 选择 器 称 为 选择 器 可 能 更 为 恰当 ， 因 为 其 输出 由 控制 信号 从 输入 中 | 号 。 控 制 信号 用 来 从 多 路 
选择 一 个 产生 。 下 面 考虑 两 输入 多 路 选择 器 。 图 A-3-2 左 侧 给 出 了 该 抽打 刁 的 输入 村 于 中 法 本 
多 路 选择 器 ， 包 含 三 个 输入 ， 两 个 数据 信号 和 一 个 选择 (控制 ) 信号 | 二 个 于 和 下 各 二 本 的 
(selector (control) value)。 控 制 信号 决定 哪 一 个 输入 信号 将 成 为 输出 。 
图 A-3-2 右 侧 给 出 了 两 输入 多 路 选择 器 的 门 级 形式 ， 其 对 应 的 逻辑 函数 为 C=(4* 5S)+(B* 5)。 


A 


s S 


图 A-3-2 左 侧 为 一 个 两 输入 的 多 路 选择 器 ， 右 侧 为 其 对 应 门 级 实现 。 多 路 选择 器 包含 两 个 输入 (4 和 
B)， 分 别 标记 为 0 和 1， 并 且 包 含 一 个 选择 输入 信号 ( 5) 和 一 个 输出 信号 (C)。 用 Verilog 来 
实现 多 路 选择 器 需要 更 多 一 点 的 工作 量 ， 尤 其 是 当 输入 多 于 两 个 时 。 我 们 将 在 A.4 节 进 行 介绍 


多 路 选择 器 可 以 有 任意 数量 的 输入 。 当 只 有 两 个 输入 信号 时 ， 只 需要 一 个 选择 信和 号， 若 
选择 信号 为 真 ( 1 )， 则 选择 其 中 的 一 个 输入 作为 输出 ; 如 果 选 择 信号 为 假 (0 )， 则 选择 另 一 
个 输入 作为 输出 。 如 果 有 个 数据 输入 ， 则 需要 |logzn| 个 选择 信号 。 因 此 ， 多 路 选择 器 主要 
由 三 部 分 组 成 : 

9 一 个 译 码 器 ,生成 个 信号 ， 每 一 个 信号 代表 一 个 不 同 的 输入 值 。 

。 一 个 n 个 与 门 构成 的 阵列 ， 每 个 与 门 都 将 一 个 输入 与 来 自 译 码 器 的 一 个 信号 组 合 在 一 起 。 

。 一 个 较 大 的 或 门 ， 用 来 合并 与 门 的 输出 。 

为 了 将 输入 信号 与 控制 信号 联系 起 来 ， 我 们 经 常 把 数据 输入 标记 为 数字 (如 0,1,2,…,n-1)， 
并 将 数据 选择 器 输入 解释 为 二 进 制 数 。 有 时 ， 我 们 也 会 利用 多 路 选择 器 未 译 码 的 选择 信号。 
在 Verilog 中 ,通过 证 语句 可 以 很 简单 地 表述 多 路 选择 器 。 对 于 大 型 的 多 路 选择 器 ， 使 
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用 case 语句 将 更 加 方便 ， 但 是 在 对 组 合 逻 辑 进行 综合 的 时 候 ， 需 要 十 分 小 心 。 
A.3.3 两 级 逻辑 和 PLA 


如 上 一 节 所 述 ， 任 何 导 辑 函数 都 可 以 通过 与 、 或 、 非 实现 。 事 “| 积 之 和 ，_ 种 也 示 表 这 
实 上 ， 还 有 更 加 规整 的 实现 方法 。 任 何 逻 辑 函 数 都 可 以 写成 规范 形 | 去 ， 即 对 所 有 来 积 (对 项 进 
式 ， 其 中 每 个 输入 信号 都 是 一 个 真 变量 或 者 其 互补 变量 ， 并 且 只 有 | 行 与 ) 进行 过 辑 求 和 (或)。 
两 级 门 一 一 与 门 和 或 门 ， 最 后 的 输出 也 可 能 反 转 ?>。 这 类 表示 称 为 两 
级 表示 法 ， 有 两 种 形式 : 积 之 和 (sum ofproducts)， 和 之 积 (product of sums) ?。 积 之 和 表示 
所 有 乘积 (各 项 与 ) 的 逻辑 和 (或 ); 和 之 积 正好 相反 。 在 前 面 的 例子 中 ,输出 E 有 两 种 形式 : 

E=((4:B)+(A4+C)+(B:C):(A-8-:C) 
和 

E=(4:B:O+(4:C:B):(B:C:h4) 
第 二 个 表达 形式 为 积 之 和 的 形式 ， 包含 两 级 逻辑 ， 并 且 非 操作 只 发 生 在 单个 变量 上 面 。 第 一 
个 表达 式 包含 三 级 逻辑 。 
网 我们 也 可 以 将 已 写成 和 之 积 的 形式 : 





E=(A+B+C): (A+C+B)' (B+C+A) 
要 得 到 这 种 表达 形式 ,需要 使 用 德 。 摩根 定律 ， 德 。 摩根 定律 在 练习 题 中 讨论 。 
本 书 中 ,我 们 使 用 积 之 和 的 形式 。 显 而 易 见 ， 对 于 任何 逻辑 函数 来 说 ,我们 都 可 以 从 它 的 
真 值 表 中 构造 出 积 之 和 的 形式 。 真 值 表 中 该 函数 为 真 ( 1 ) 的 表 项 对 应 一 个 乘积 项 。 乘 积 项 为 
所 有 输入 或 输入 的 互补 项 的 乘积 ， 是 输入 还 是 输入 的 互补 项 取决 于 真 值 表 对 应 表 项 中 该 变量 是 
1 还 是 0。 而 逻辑 函数 就 是 函数 为 真 的 那些 乘积 项 的 逻辑 和 。 通 过 一 个 例子 可 以 更 容易 理解 。 















































| 例题 | 积 之 和 
请 写 出 下 面 真 值 表 中 D 的 乘积 和 的 表达 式 。 
| 
TE 
0 | 0 | 0 
0 0 要 | 本 
0 入 0 | 1 
0 a 1 | 0 
和 0 0 
有 0 4 0 
1 0 0 
1 1 和 法 
| 答案 | 由 于 真 值 表 中 有 4 个 表 项 对 应 的 万 为 1， 因 此 总 共有 4 个 乘积 项 ， 如 下 : 
本 :万 C 
4.B.C 
A*B:C 
A:B:C 


日 ” 即 需 要 一 个 反 相 器 。 一 一 译 者 注 
名 即 “ 与 或 式 ” 和 “或 与 式 " 。 一 译 者 注 


。 
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由 此 ,我 们 可 以 写 出 DD 的 积 之 和 的 形式 : 
D=(A4:B:C)(4:B:O(4:B:O(4.B:C) 
注意 ， 真 值 表 中 只 有 输出 为 1 的 表 项 ， 才 能 生成 方程 式 中 的 乘积 项 。 


我 们 可 以 利用 真 值 表 和 两 级 门 表示 方法 之 间 的 关系 ， 为 任何 迎 
辑 函 数 生成 一 个 门 级 的 实现 。 一 个 逻辑 函数 集 对 应 一 个 包含 多 个 输 
出 列 的 真 值 表 ， 如 A.2.1 节 中 的 例子 所 示 。 其 中 ， 每 一 个 输出 列 对 
应 一 个 不 同 的 逻辑 函数 ， 这 些 逻 辑 函 数 都 可 以 直接 从 真 值 表 中 构造 
出 来 。 

积 之 和 的 表示 方法 对 应 一 种 常见 的 称 为 可 编程 逻辑 阵列 ( Pro- 
grammable Logic Array，PLA) 的 结构 化 逻辑 实现 方法 。 一 个 PLA 
包含 一 组 输入 、 输 入 取 反 的 信号 (通过 反 相 器 来 实现 ) 和 两 级 逻辑 。 
第 一 级 逻辑 是 一 个 与 门 阵列 ， 用 来 生成 乘积 项 ( product term) (也 称 
为 最 小 项 ( minterm))， 每 一 个 乘积 项 都 由 输入 信号 或 其 反 相信 号 构 
成 。 第 二 级 为 一 个 或 门 阵列 ， 生 成 任意 数量 乘积 项 的 逻辑 和 。 
图 A-3-3 显示 了 PLA 的 基本 构成 。 











可 编程 逻辑 阵列 一 种 结 
构 化 还 辑 单 元 ， 由 一 组 输入 
信号 或 其 反 相信 号 和 一 个 两 
级 逻辑 构成 。 第 一 级 逻辑 用 
来 生成 输入 信号 和 其 反 相信 
号 的 乘积 项 ， 第 二 级 远 辑 用 
来 生成 这 些 乘积 项 的 和 。 因 
此 ，PLA 通过 乘积 项 的 和 
实现 逻辑 函 教 。 


最 小 项 : 也 称 为 乘积 项 。 
由 与 操作 连接 的 一 组 还 辑 
输入 。 夹 积 项 构成 了 PLA 
的 第 一 级 逻辑 。 


图 A-3-3 PLA 由 与 门 阵 列 和 紧 跟 的 或 
门 阵列 构成 。 与 门 阵列 的 每 
一 个 输入 都 是 若干 输入 信号 
或 其 反 相 信号 的 乘积 。 或 门 
阵列 的 每 一 个 输入 为 若干 数 
量 的 乘积 项 的 和 


PLA 可 直接 实现 多 输入 多 输出 逻辑 函数 的 真 值 表 。 真 值 表 中 输出 为 真 的 表 项 需要 一 个 
乘积 项 ， 在 PLA 中 对 应 一 行 。 真 值 表 中 每 一 个 输出 都 与 第 二 级 或 门 阵 列 中 潜在 的 某 一 行 
对 应 。 或 门 的 数量 与 真 值 表 中 输出 为 真 的 表 项 数 对 应 。 如 图 A-3-3 所 示 ，PLA 的 规模 等 于 
与 门 阵列 以 及 或 门 阵列 的 大 小 之 和 。 通 过 观察 图 A-3-3 可 以 发 现 ， 与 门 阵列 的 大 小 等 于 输 
和 人 信号 的 数量 乘 以 不 同 乘积 项 的 数量 ， 或 门 阵列 的 大 小 等 于 输出 信号 的 数量 乘 以 乘积 项 的 


数量 。 


PLA 有 两 个 特点 ,使 其 成 为 实现 逻辑 函数 的 有 效 方法 。 首 先 ， 只 有 真 值 表 中 输出 至 少 
有 一 个 为 真 的 表 项 ， 才 需要 对 应 的 逻辑 门 。 其 次 ， 每 个 不 同 的 乘积 项 在 PLA 中 仅 对 应 一 个 


表 项 ， 即 使 该 乘积 项 被 多 个 输出 使 用 。 下 面 让 我 们 来 看 一 个 例子 。 
| 例题 | PLA 











考虑 A.2.1 节 中 定义 的 一 组 多 辑 函数 ，。 写 出 D、E、 严 的 PLA 实现 方法 。 


| 答案 | 以 下 是 前 面 构造 的 真 值 表 。 
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由 于 真 值 表 中 输出 部 分 至 少 有 一 个 为 1 的 表 项 有 7 个， 因此 与 门 阵列 将 有 7 列 。 与 门 
阵列 中 行 数 为 3 (因为 共有 3 个 输入 )， 同 时 或 门 阵列 中 也 包含 3 行 (因为 共有 3 个 输出 )。 
图 A-3-4 为 最 终 的 PLA， 其 中 的 乘积 项 与 真 值 表 中 自 项 向 下 的 表 项 相对 应 。 








图 A-3-4 ”例题 中 逻辑 函数 对 应 的 PLA 实现 





图 A-3-4 将 所 有 的 门 都 画 了 出 来 ， 事 实 上 ， 设 计 者 常常 只 需 画 出 与 门 和 或 门 的 位 置 ， 而 
在 乘积 项 信号 线 与 输入 信号 或 输出 信号 交叉 的 地 方 使 用 圆 点 来 标注 此 时 需要 与 门 或 者 或 门 。 
图 A-3-4 中 的 PLA 使 用 这 种 方法 表示 的 结果 如 图 A-3-5 所 示 。PLA 的 功能 在 创建 时 就 固定 
下 来 了 ， 但 是 也 存在 类 似 PLA 结构 的 逻辑 块 ， 称 为 PAL， 由 设计 者 通过 编程 的 方式 来 使 用 。 


输入 
A 





B 图 A-3-5 在 阵列 中 用 点 来 表示 乘积 项 及 
二 乘积 项 之 和 的 PLA 结构 。 图 中 
没有 在 门 上 使 用 反 相 器 ， 而 是 


将 所 有 输入 信号 及 其 互补 的 信 
号 连接 到 与 阵列 的 每 个 输入 上 。 








be 与 阵列 中 的 点 表示 该 输入 或 其 
Sg e 反 相 值 出 现在 乘积 项 中 。 或 阵 
列 中 的 点 表示 相应 的 乘积 项 出 


现在 相应 的 输出 上 
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A.3.4 ROM 


另 一 种 可 以 实现 一 系列 逻辑 函数 的 结构 化 逻辑 称 为 只 读 存 储 器 | 只 法 存储 器 ，_ 种 友信 器， 
(Read-Only Memory，ROM)。ROM 被 称 为 存储 器 是 因为 其 包含 一 | 共 内 容 在 制造 时 就 固定 下 
组 可 以 进行 读 操作 的 位 置 ， 然 而 ， 这 些 位 置 的 内 容 是 固定 的 ， 一 般 | 未 ， 此 后 内 容 只 能 被 读 出 * 
在 制造 的 时 候 就 固定 下 来 。 也 有 可 编程 只 读 存储器 ( Programmable | 2 人 和 全 全 全 
ROM，PROM)， 当 设计 者 知道 内 容 时 ， 可 以 电子 化 编程 写 人 。 还 有 | 函数 中 的 项 作为 地 址 输入 ， 
可 擦 除 PROM， 这 类 器 件 需 要 一 个 缓慢 的 擦 除 过 程 ， 过 程 中 需要 使 | 并 将 输出 作为 存储 器 中 每 
紫外 线 。 因 此 除了 设计 和 调试 外 ， 这 类 器 件 只 用 作 只 读 存 储 器 。 人 

ROM 包含 一 组 输入 地 址 线 和 一 组 输出 。ROM 中 可 寻 址 的 项 数 
决定 了 地 址 线 的 数量 : 如 果 ROM 包含 2m 个 可 寻 址 的 项 ( 称 为 高 | 可 编程 ROM ;一 种 只 旋 
度 )， 则 需要 mm 条 地 址 线 。 每 个 可 寻 址 项 包含 的 位 数 等 于 输出 信号 的 。 | 本 全 生生 全 有 可 
位 数 ， 有 时 也 称 为 ROM 的 宽度 。ROM 中 总 的 位 数 等 于 高 度 乘 以 宽 
。 有 时 将 高 度 和 宽度 统称 为 ROM 的 形状 。 

ROM 可 以 直接 通过 真 值 表 编码 滥 辑 函数 。 例 如 ， 对 于 有 m 个 输入 的 个 函数 ，ROM 需 
要 加 条 地 址 线 (2" 个 人 口 )， 其 中 每 个 人 口 都 为 n 位 宽 。 真 值 表 中 的 输入 代表 ROM 中 的 入 口 
地 址 ， 真 值 表 中 的 输出 内 容 则 构成 ROM 中 存储 的 内 容 。 如 果 组 织 真 值 表 ， 使 得 输入 部 分 的 人 
口 顺序 构成 二 进 制 序列 顺序 (如 我 们 迄今 所 展示 的 所 有 真 值 表 )， 那么 输出 部 分 也 按 序 给 出 了 
ROM 的 内 容 。 在 A.3 节 的 第 二 个 例子 中 ， 有 3 个 输入 和 3 个 输出 ， 那 么 对 应 的 ROM 有 2’= 8 
个 人 口 ， 每 个 人 口 3 位 宽 。ROM 中 按 地 址 增 序 排列 的 各 入 口 项 所 对 应 的 内 容 可 直接 由 例子 中 
真 值 表 的 输出 部 分 给 出 。 

ROM 和 PLA 间 关 系 密切 。ROM 是 完全 译 码 的 : 对 每 一 个 可 能 的 输入 组 合 ， 都 有 一 个 
全 输出 字 。 而 PLA 是 部 分 译 码 的 。 这 意味 着 ROM 总 是 包含 更 多 的 人 口 项 。 对 于 A.3 节 的 第 
二 个 例子 中 的 真 值 表 ，ROM 包含 了 所 有 可 能 的 8 个 输入 人 口 ， 而 PLA 只 包含 了 7 个 有 效 的 
乘积 项 。 随 着 输入 数量 的 增加 ，ROM 中 的 入口 数量 呈 指 数 增长 。 与 此 相反 ， 对 大 多 数 实际 
的 逻辑 函数 ， 乘 积 项 数量 的 增长 缓慢 得 多 (参考 附录 C 的 例子 )。 这 种 差异 使 得 PLA 成 为 实 
现 组 合 逻辑 函数 更 有 效 的 方法 。ROM 的 优势 在 于 ， 当 输入 和 输出 数量 匹配 时 ，ROM 可 以 实 
现任 意 的 逻辑 函数 。 这 种 优势 使 得 当 逻 辑 函 数 发 生变 化 时 ，ROM 中 的 内 容 很 容易 改变 ， 
为 ROM 的 大 小 不 需要 改变 。 

除了 ROM 和 PLA 外 ， 现 代 的 逻辑 综合 系统 也 会 将 小 的 组 合 逻 辑 块 转化 为 一 系列 门 的 组 
合 ， 自 动 完成 布局 布线 。 尽 管 一 些小 的 门 集合 通常 不 是 面积 有 效 的 ， 但 对 于 小 的 逻辑 函数 ， 
它们 的 开销 仍 要 比 ROM 和 PLA 的 刚性 结构 少 ， 因 此 也 是 逻辑 实现 的 优选 方法 。 

对 于 在 全 定制 或 半 定制 集成 电路 之 外 设计 逻辑 而 言 ， 一 种 更 常用 的 方法 是 使 用 现场 可 编 
程 器 件 ， 我 们 将 在 A.12 节 中 进行 讨论 。 


A.3.5 无 关 项 

在 实现 组 合 逻 辑 时 ， 有 时 我 们 并 不 在 乎 某 些 输出 的 值 ， 其 原因 可 能 是 有 另 一 个 输出 为 
真 ， 或 者 是 只 有 一 些 输入 组 合 的 子 集 决定 了 输出 的 值 。 我 们 称 这 种 情况 为 无 关 项 。 因 为 可 以 
简化 逻辑 函数 的 实现 ， 因 此 无 关 项 很 重要 。 

无 关 项 包含 两 种 类 型 : 输出 无 关 项 和 输入 无 关 项 ， 两 者 都 可 以 在 真 值 表 中 体现 。 当 我 们 
对 一 些 输入 组 合 产生 的 输出 不 太 关心 时 ， 就 产生 了 给 出 无 关 项 ， 在 真 值 表 的 输出 部 分 以 X 标 
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记 。 当 一 个 输出 对 于 一 些 输入 的 组 合 来 说 属于 无 关 项 时 ， 设 计 者 或 迎 辑 优化 程序 就 可 以 自由 
地 将 这 些 输入 产生 的 输出 赋值 为 1 或 0。 当 输出 只 取决 于 一 部 分 输入 时 ， 就 产生 了 输入 无 关 
项 ， 在 真 值 表 的 输入 部 分 用 和 标记 。 





| 例题 | 无 关 项 


考 虚 一 个 包含 4、B8、C 三 个 输入 的 逻辑 函数 ， 其 定义 如 下 : 

。 不 管 B 的 值 为 多 少 ， 只 要 4 或 C 为 真 ， 则 输出 万 为 真 。 

。 不 管 C 的 值 为 多 少 ， 只 要 4 或 3 为 真 ， 则 输出 五 为 真 。 

。 虽然 刀 和 已 都 为 真 时 ， 我 们 不 关心 下 的 值 ， 但 是 只 要 三 个 输入 中 一 个 为 真 ， 则 输出 

下 为 真 。 

请 写 出 该 逻辑 函数 完整 的 真 值 表 和 带 有 无 关 项 时 的 真 值 表 。 对 每 一 个 真 值 表 ，PLA 各 需要 多 
少 个 乘积 项 ? 
| 答案 | 下 面 是 不 带 无 关 项 的 完整 的 真 值 表 : 



































































































































0 0 0 4 0 0 0 
| 0 一 i -每 1 
0 EE 
bs | 和 和 Pom i 
1 0 0 | 1 上 区 
-= 站 二 | 1 0 
4 i Ee 二 ee” 
1 1 1 | 
在 没有 优化 时 ， 这 个 真 值 表 需要 7 个 乘积 项 。 带 有 输出 无 关 项 的 真 值 表 如 下 : 
BD SST Se eT 
0 0 0 0 0 0 
上 全 一 0 1 而 0 和 
0 1 0 加 1 
0 1 1 1 1 x 
一 Wt 1 1 x 
- 0 1 a 1 x 
0 1 1 x 
a 1 EN -tt 
当 加 入 输入 无 关 项 时 ， 真 值 表 可 以 被 进一步 简化 ， 如 下 所 示 : 
Be 
0 0 0 0 0 0 
0 人 1 a 
1 | 0 1 1 
"Es 1 1 1 x 
1 x x 和 x 

















简化 后 的 真 值 表 对 应 的 PLA 只 需要 4 个 最 小 项 , 或 者 可 以 采用 一 个 两 输入 的 与 门 和 三 
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个 或 门 来 实现 (其 中 两 个 或 门 包含 三 个 输入 ， 另 一 个 包含 两 个 输入 )。 而 原始 的 真 值 表 需 要 7 
个 最 小 项 ， 并 可 能 需要 4 个 与 门 。 


逻辑 最 小 化 对 获得 高 效 的 实现 很 重要 。 对 任 一 逻辑 进行 手工 最 小 化 的 一 个 有 效 工 具 是 
卡 诺 图 (Karnaugh map)。 卡 诺 图 将 真 值 表 以 图 的 形式 表示 出 来 ， 因 此 可 以 很 容易 看 出 哪些 
乘积 项 可 以 进行 合并 。 但 是 ， 由 于 卡 诺 图 的 尺寸 及 其 复杂 性 ， 用 其 优化 较 大 的 逻辑 函数 是 不 
切实 际 的 。 幸 运 的 是 ， 逮 辑 最 小 化 的 过 程 已 经 高 度 机 械 化 ， 可 以 通过 设计 工具 来 完成 。 在 最 
小 化 的 过 程 中 ,设计 工具 利用 了 无 关 项 的 这 个 优势 ， 因 此 ， 指 定 哪些 是 无 关 项 很 重要 。 附 
录 最 后 的 参考 文献 中 提供 了 更 多 的 内 容 ， 包 括 逻 辑 最 小 化 、 卡 诺 图 以 及 最 小 化 算法 背后 的 
原理 。 


A.3.6 逻辑 单元 阵列 


对 数据 进行 的 很 多 组 合 滥 辑 操作 经 常 需要 一 次 处 理 整 个 字 ( 64 | 总线， 在 还 得 设计 中 特 
位 )。 因 此 我 们 希望 能 多 构建 一 个 多 名单 殉 的 阵列 ， 将 一 个 操作 作用 | 二线 作为 一 个 和 
在 整个 输入 的 集合 上 。 很 多 时 候 ， 我 们 要 在 机 器 内 部 的 一 对 总 线 中 “| 信号 一 起 处 理 的 条 合 ， 
进行 选择 。 总 线 ( bus) 是 作为 单一 逻辑 信号 一 起 处 理 的 数据 线 的 集 | 让 所 和 过 的 基于 
合 。( 名 词 总 线 也 用 来 表示 有 多 个 信号 源 和 用 途 的 一 组 共享 信号 线 .) 

例如 ， 在 LEGv8 指令 集中 ,被 写 入 寄存 器 的 指令 运行 结果 可 能 有 两 个 来 源 。 此 时 ， 需 
要 用 一 个 多 路 选择 器 来 从 两 个 总 线 (各 64 位 ) 中 选择 一 个 写 和 结果 寄存 器 。 前 面 提 到 的 1 位 
多 路 选择 器 ， 在 这 里 需要 被 复制 64 次 。 

在 画图 时 ， 我 们 用 粗 线 来 区 分 信号 线 是 总线 还 是 1 位 信号 线 。 大 多 数 总 线 都 是 64 位 宽 ， 
如 果 不 是 64 位 宽 ， 就 明确 地 写 出 其 位 宽 。 当 一 个 远 辑 单元 的 输入 和 输出 是 总 线 时 ， 意 味 着 该 
让 辑 单元 必须 被 复制 足够 的 次 数 来 满足 输入 的 位 帘 。 图 A-3-6 中 的 多 路 选择 器 在 一 对 64 位 宽 
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B63 





a) 64 位 宽 的 2 选 1 多 路 选择 器 b) 64 位 宽 的 多 路 选择 器 其 实 是 64 个 1 位 多 路 选择 器 阵列 


图 A-3-6 多 路 复 用 器 复制 64 次 以 在 两 个 64 位 输入 之 间 进 行 选择 。 注 意 ， 对 64 个 1 位 
多 路 选择 器 仍 使 用 一 位 选择 信号 
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的 总 线 间 进 行 选择 。 同 时 ,图 中 也 显示 了 该 多 路 选择 器 是 如 何 通过 扩展 1 位 多 路 选择 器 实现 
的 。 有 了 时， 我 们 需要 构造 逻辑 单元 的 阵列 ， 其 中 有 些 单元 的 输入 来 自 于 前 面 单元 的 输出 。 例 
如 ， 多 位 宽 的 ALU 就 是 这 样 构造 的 。 在 这 一 类 例子 中 ， 我 们 必须 明确 地 显示 出 如 何 构 造 更 宽 
的 阵列 ， 因 为 此 时 阵列 中 的 单个 元 件 并 不 是 独立 存在 的 ， 正 如 64 位 宽 多 路 选择 器 的 例子 所 示 。 
































A.4 使 用 硬件 描述 语言 


当前 ， 处 理 器 和 相关 硬件 系统 都 是 通过 硬件 描述 语言 ( hardware description language) 
来 进行 数字 系统 的 设计 。 硬 件 描述 语言 有 两 个 作用 。 首 先 ， 提 供 了 对 硬件 的 一 种 抽象 描述 ， 


通过 这 种 描述 可 以 对 设计 进行 模拟 和 调试 。 其 次 ， 借 助 于 逻辑 综合 
和 硬件 编译 工具 ， 硬 件 描述 可 以 被 编译 成 硬件 实现 。 

本 节 将 介绍 硬件 描述 语言 Verilog， 并 展示 如 何 使 用 Verilog 来 
设计 组 合 逻 辑 。 在 附录 的 其 他 部 分 中 ， 我 们 将 Verilog 的 使 用 扩 
展 到 时 序 逻 辑 的 设计 上 。 在 第 4 章 的 网 络 选读 内 容 中 ， 我们 使 用 
Verilog 来 描述 处 理 器 的 实现 。 在 第 5 章 的 网 络 选读 内 容 中 ,我 们 
使 用 System Verilog 来 描述 cache 控制 器 的 实现 。System Verilog 为 
Verilog 增加 了 一 些 结构 和 其 他 有 用 的 特征 。 

Verilog 是 两 种 基本 硬件 描述 语言 中 的 一 种 ， 另 一 种 是 VHDL。 
相对 基于 Ada 的 VHDL，Verilog 基于 C 语言 ， 在 工业 界 使 用 更 为 广 
泛 。 对 CC 语言 比较 熟悉 的 读者 会 发 现 ， 附 录 中 用 到 的 Verilog 的 基本 
原理 是 很 容易 理解 的 。 对 VHDL 比较 熟悉 的 读者 ， 如 果 对 C 语言 的 
语法 有 所 了 解 的 话 ， 也 会 发 现 Verilog 的 概念 很 简单 。 

Verilog 可 以 同时 在 行为 级 和 结构 级 描述 一 个 数字 系统 。 行 为 


硬件 描述 语言 : 一 种 描 
述 硬 件 的 编程 语言 ， 用 
来 模拟 硬件 设计 ， 可 以 给 
入 给 综合 工具 生成 实际 的 
硬件 。 


Verilog : 两 种 最 常用 的 而 
件 描述 语言 中 之 一 。 


VHDL : 两 种 最 常用 硬件 
描述 语言 之 一 。 


行为 级 描述 : 描述 一 个 数 
字 系 统 如 何在 功能 上 操作 
和 运行。 
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级 ( behavioral specification) 描述 数字 系统 的 功能 操作 。 结 构 级 | 结构 级 描述 : 描述 一 个 数 
( structural specification) 描述 数字 系统 的 详细 组 织 结构 ， 并 且 通 常 采 | 字 系 统 是 如 何 通过 基本 元 
用 层次 描述 。 结 构 级 可 以 从 基本 元 件 的 层次 结构 方面 描述 硬件 系统 ， | 呈 则 全 基 和 生生 生生 
比如 在 门 级 和 开关 级 。 因 此 ，Verilog 可 以 用 来 描述 真 值 表 的 具体 内 
容 和 最 后 一 节 中 的 数据 通路 。 让 

随 着 硬件 综合 工具 ( hardware synthesis tool) 的 出 现 ， 大 多 数 设 机 本 助 设计 软件 ， 可 以 通 
计 者 都 使 用 Verilog 或 VHDL， 只 对 数据 通路 进行 结构 级 描述 ， 之 “| 过 数字 系统 的 行为 级 播 述 
后 通过 逻辑 综合 从 行为 级 描述 中 生成 控制 系统 。 另 外 ， 大 多 数 CAD | 来 生成 门 级 的 设计 。 
系统 都 提供 了 广泛 的 标准 元 件 库 ， 如 ALU、 多 路 选择 器 、 寄 存 器 文 
件 、 存 储 器 和 可 编程 逻辑 块 ， 当 然 也 包含 基本 的 门 。 

如 果 要 通过 库 和 逻辑 综合 获得 可 接受 的 结果 ， 就 需要 在 描述 时 着 眼 于 最 终 的 综合 及 所 需 
的 输出 。 对 于 简单 的 设计 而 言 ， 这 意味 着 我 们 要 明确 期 望 在 组 合 逻 辑 中 实现 什么 ， 以 及 期 户 
在 时 序 逻 辑 中 需要 什么 。 在 本 节 及 剩余 附录 中 的 大 部 分 例子 中 ， 我 们 在 写 Verilog 代码 时 就 
考虑 到 了 最 终 的 综合 。 
A.4.1 Verilog 的 数据 类 型 和 操作 类 型 

Verilog 有 两 种 基本 数据 类 型 : 

。 wire 表示 组 合 信号 。 | 在 Verilog 中 表示 组 

。 reg ( register) 存储 数据 ， 该 数据 随 着 时 间 的 推移 而 变化 。 尽 | 人鱼 信号 。 

管 实现 中 reg 常常 与 一 个 寄存 器 相关 联 ， 但 并 不 意味 着 reg | reg ,在 Verioe 中 表示 和 
必须 对 应 于 一 个 实际 的 寄存 器 。 存 器 。 

假设 有 一 个 wire 或 reg (命名 为 X) 为 64 位 宽 ， 可 以 声明 为 : 
reg [63:0] X 或 wire [63:0] X， 索 引 0 指定 寄存 器 的 最 低 有 效 位 。 由 于 经 常 需要 访问 
reg 或 wire 的 子 字段 ， 因 此 可 以 通过 [ 起 始 位 : 结束 位 ] 访问 reg 或 wire 中 一 段 连续 的 位 ， 
其 中 起 始 位 和 结束 位 必须 为 常数 。 

reg 阵列 可 以 用 来 表示 寄存 器 文件 或 存储 器 ， 声 明 为 : 

reg [63:0] registerfile[0:31] 


上 述 声 明 的 寄存 器 文件 变量 等 效 于 LEGv8 中 的 寄存 器 文件 ， 其 中 寄存 器 0 是 第 一 个 寄存 器 。 
当 访问 该 阵列 时 ， 与 C 语言 一 样 ， 可 以 使 用 registerfile[ regnum ] 访问 其 中 某 个 数据 。 





Verilog 中 reg 或 wire 型 数据 可 能 的 取 值 有 : 

。 0 或 1， 表 示 逻 辑 假 或 真 。 

。 X， 表 示 取 值 未 知 ， 所 有 寄存 器 的 初 值 、 未 被 连接 的 wire 的 值 均 为 X。 

ee Z， 表示 三 态 门 处 于 高 阻 态 ， 在 本 附录 中 不 对 其 进行 讨论 。 

常量 可 以 被 指定 为 十 进 制 、 二 进 制 、 八 进 制 或 十 六 进 制 。 通 常 我 们 需要 确切 地 知道 一 个 
常量 包含 多 少 二 进 制 位 ， 这 可 以 通过 一 个 十 进 制 的 前 缀 来 声明 常量 的 大 小 (所 含 的 二 进 制 位 )。 
例如 : 

。 4'b0100 表示 一 个 值 为 4 的 4 位 二 进 制 常量 ， 等 价 于 4' G4。 

e -8“h4 定义 了 一 个 值 为 -4 的 8 位 常量 数 (二 进 制 补 码 表示 )。 

数值 也 可 以 置 于 逗号 分 隔 的 {} 中 实现 级 联 ，{x{bitfield}} 表示 将 bitfield 复制 x 
次 。 例 如 : 
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ee {32127b0111 创建 了 一 个 具有 模式 0101…01 的 64 位 数值 。 

e{R[31:16]B[15:0] 创建 了 一 个 数值 ， 其 中 高 16 位 来 自 A, 低 16 位 来 自 B。 

Verilog 从 C 语言 中 继承 了 一 元 组 和 二 进 制 操作 符 ， 包 括 算术 运算 符 (+，-，*，/)、 退 
辑 运算 符 〔&，|， 一 )、 比 较 运 算 符 (==，! =，>，<，<=，>=-)、 移 位 运算 符 (<<，>>) 和 
C 语言 的 条 件 运算 符 (? ， 其 使 用 格式 为 condition?exprl:expr2， 当 condition 为 
真 时 返回 expr1， 和 否则 返回 expr2)。Verilog 中 增加 了 一 组 逻辑 归 约 运算 符 (&&, |,^), 这 
类 运算 符 对 操作 数 的 所 有 位 进行 逻辑 操作 ， 最 后 得 到 一 位 的 值 。 例 如 ，&A 返回 A 中 所 有 位 
进行 与 操作 的 结果 ，^R 返回 A 中 所 有 位 异 或 的 结果 。 








A.4.2 ”Verilog 程序 的 结构 


Verilog 程序 由 模块 组 合 构成 。 这 些 模 块 小 到 一 个 逻辑 门 ， 大 到 一 个 完整 的 系统 。Verilog 
中 的 模块 类 似 于 C++ 中 的 类 ， 但 没有 类 那样 强大 的 功能 。 模 块 定义 了 它 的 输入 和 输出 ， 输 入 
和 输出 分 别 对 应 了 模块 与 外 部 进行 连接 时 的 输入 接口 和 输出 接口 。 模 块 也 可 能 声明 一 些 附加 
的 变量 。 模 块 的 主体 由 以 下 几 个 部 分 构成 : 

e initial 结构 ， 该 结构 可 以 对 reg 型 变量 进行 初始 化 。 

。 连续 赋值 语句 ， 这 类 语句 只 能 定义 组 合 逻辑 。 

e always 结构 ， 该 结构 既 可 以 定义 组 合 逻 辑 ， 也 可 以 定义 时 序 逻 辑 。 

。 模块 实例 化 ， 用 来 对 已 经 定义 的 模块 进行 实例 化 操作 。 


A.4.3 用 Verilog 表示 复杂 组 合 逻 辑 


持续 赋值 语句 用 关键 字 assign 表示 ， 具 有 组 合 逻 辑 函 数 的 特点 : 输出 被 持续 赋值 ， 并 且 
输入 一 旦 发 生变 化 ， 输 出 值 也 马上 发 生变 化 。wire 型 变量 只 能 通过 持续 赋值 语句 进行 赋值 。 
我 们 可 以 采用 持续 赋值 语句 来 定义 一 个 模块 ， 实 现 半 加 器 ， 如 图 A-4-1 所 示 。 




















module half_adder (A,B,Sum,Carry); 
input A,B; //two 1-bit inputs 
output Sum, Carry; //two 1-bit outputs 
assign Sum = A* B; //sum is A xor B 
assign Carry = A & B; //Carry is A and B 
endmodule 


图 A-4-1 使 用 持续 赋值 语句 定义 一 个 半 加 器 的 Verilog 模块 


使 用 持续 赋值 语句 是 Verilog 中 一 种 有 效 的 构造 组 合 逻 辑 的 方法 。 但 是 ， 当 需要 构造 
更 复杂 的 结构 时 ， 持 续 赋值 语句 将 变 得 很 笨拙 和 乏味 。 另 一 种 描述 组 合 逻辑 的 方法 是 使 用 
always 模块 ， 虽 然 使 用 时 要 多 加 小 心 。always 块 中 可 以 使 用 Verilog 的 控制 语句 ， 如 if-then- 
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else、case、for 和 repeat 语句 。 这 些 语句 与 C 语言 中 的 类 似 ， 只 有 少许 变化 。 
每 个 always 块 会 指定 一 个 信号 列表 ， 表 明 该 块 对 列表 中 的 信号 敏感 (列表 以 @ 开始 )。 


列表 中 任 一 信号 发 生变 化 ，always 块 都 将 重新 执行 。 如 果 省 略 了 敏感 
信号 列表 ， 则 always 块 将 被 不 停 地 重新 执行 。 当 always 块 表示 组 合 
逻辑 时 ， 敏 感 列表 ( sensitivity list) 需要 包含 所 有 的 输入 信号 。 如 果 
always 块 中 要 执行 多 条 Verilog 语句 ， 那 么 这 些 语 句 要 用 关键 字 begin 
和 end 包含 ， 就 像 C 语言 中 的 {and} 。always 块 的 示例 如 下 所 示 : 


always @t1ist of signals that cause reevaluation) begin 
Verilog statements including assignments and other 
control statements end 


reg 型 变量 只 能 在 always 块 内 部 进行 赋值 ， 使 用 过 程 赋 值 语 
名 (与 前 面 介 绍 的 持续 赋值 不 同 )。 有 两 种 不 同 的 过 程 赋值 语句 。 其 
中 赋值 操作 符 = 的 使 用 与 C 语 言 中 的 类 似 ， 即 等 号 右 侧 计算 出 结 
果 ， 并 赋值 给 左 侧 。 而 且 与 C 语 言 中 的 赋值 语句 执行 相同 ， 即 在 下 
一 条 语句 执行 前 ， 该 赋值 语句 完成 执行 。 因 此 ， 赋 值 操作 符 = 被 称 
为 阻塞 赋值 ( blocking assignment)。 阻 塞 赋值 对 构造 时 序 逻 辑 来 说 
很 有 用 ， 我 们 稍 后 再 回来 介绍 。 另 一 种 过 程 赋值 语句 为 非 阻塞 赋值 
(nonblocking assignment)， 记 为 <=。 对 于 非 阻 塞 赋值 ， 当 always 块 


敏感 列表 : 一 些 信号 构成 
的 列表 ， 当 这 些 信号 中 任 
一 信号 发 生变 化 时 ，always 
块 都 将 重新 执行 - 


阻塞 赋值 : Verilog 中 ， 在 
下 一 条 语句 执行 前 必须 完 
成 执行 的 赋值 语句。 


非 阻塞 赋值 ， 在 右 侧 执行 
完 后 继续 进行 赋值 的 册 值 
语句 ， 仅 在 所 有 右 侧 都 执 
行 完 后 才 赋 值 左 边 的 值 。® 


中 所 有 非 阻塞 赋值 语句 右 侧 执行 获得 结果 时 ， 同 时 赋值 给 左 侧 变量 。 作 为 第 一 个 使 用 always 
块 实现 的 组 合 逻 辑 例 子 ， 图 A-4-2 给 出 了 一 个 4 选 1 多 路 选择 器 的 实现 ， 使 用 了 case 语句 简 
化 构造 。case 与 C 语言 中 的 switch 语句 类 似 。 图 A-4-3 给 出 了 LEGv8 中 ALU 的 实现 ， 其 中 


也 使 用 了 case 语句 。 





module Mult4tol (Inl,In2,In3,In4,Sel.0ut): 


input [1:0] Sel; //selector signal 
output reg [31:0] Out:// 32-bit output 
always @(Inl, In2, In3, In4, Sel) 
case (Sel) //a 4->1 multiplexor 
0: 0ut “= Inl; 
1 Dub X= TZ 
好 Ou Ke 3s 
default: Out “= In4; 
endcase 
endmodule 





input [31:0] Inl, In2, In3, In4; /four 32-bit inputs 








图 A-4-2 使 用 case 语句 实 现 的 4 选 1 多 路 选择 器 (包含 32 位 输入 )。case 语句 与 C 语言 中 的 switch 
语句 类 似 ， 不 同 之 处 在 于 ， 在 Verilog 中 ， 只 有 被 case 选择 到 的 语句 才 会 被 执行 (就 好 像 每 


一 个 case 状态 后 面 都 加 了 break 一 样 )， 并 且 不 能 转 到 下 一 个 分 支 去 


由 于 在 always 块 中 只 能 给 reg 型 变量 赋值 ， 因 此 如 果 希 望 使 用 always 块 描述 组 合 逻 辑 ， 则 
必须 小 心 确保 这 个 reg 变量 不 会 被 综合 为 一 个 寄存 器 ， 下 面 的 “ 精 解 ” 中 描述 了 各 种 “陷阱 ”。 
清 钴 持续 赋值 语句 总 是 产生 组 合 盈 辑 ， 但 是 其 他 一 些 Verilog 结构 ， 即 使 在 always 块 


中 ， 也 可 能 在 逻辑 综合 过 程 中 产生 意 想不到 的 结果 。 最 常见 的 问题 是 ， 


使 用 已 经 存在 的 锁 存 


日 ”只 有 计算 出 所 有 非 阻塞 语 句 等 号 右 侧 的 结果 时 ， 才 对 左 侧 进行 赋值 。 一 一 译 者 注 
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器 或 崩 存 器 来 实现 时 序 逻 辑 ， 这 将 导致 生成 的 结果 比 预期 的 要 慢 ， 并 且 开 销 更 大 。 为 了 保证 
你 设计 的 组 合 逻 辑 可 以 按 这 种 方式 被 综合 ， 请 务必 做 到 以 下 几 点 : 

@ 将 所 有 的 组 合 姿 辑 放 在 持续 赋值 语句 或 always 块 中 。 

e 确保 作为 输入 的 所 有 信和 号 都 出 现在 always 块 的 敏感 列表 中 。 

@ 保证 每 一 个 通过 always 块 的 数据 通路 ,都 将 值 赋 给 同一 组 位 。 

最 后 一 点 是 最 容易 被 忽略 的 。 图 A-5-15 中 的 例子 说 明 为 何 要 坚持 最 后 一 点 。 





module MIPSALU (ALUct]1, A, B, ALUOut, Zero); 
input [3:0] ALUct]; 
input [31:0] A,B; 
output reg [31:0] ALUOut; 
output Zero; 
assign Zero = (ALUOQut==0); //Zero is true if ALUOut is 0; goes anywhere 
always @(ALUct1, A, B) //reevaluate ‘f these change 
case (ALUct1) 


0: ALUOut <= A&B 
1: ALUOut <= A |B; 
2: ALUOut <= A+B; 
6: ALUOut <= A-B; 
7: ALUOut = A《B?1:0; 


12: ALUOut “= ~(A | B); // result is nor 
default: ALUQut <= 0; //default to 0, should not happen; 
endcase 
endmodule 











图 A-4-3 LEGv8 中 ALU 的 Verilog 行为 级 定义 。 通 过 使 用 包含 基本 算术 和 逻辑 操作 的 模块 库 ， 
就 可 以 对 其 进行 综合 








A.5 ”构建 基本 的 算术 逻辑 单元 


算术 逻辑 单元 ( Arithmetic Logic Unit，ALU) 是 计算 机 的 关键 ， 是 计算 机 执行 算术 运算 
(比如 加 法 和 减法 ) 和 逻辑 运算 〈 比 如 与 操作 和 或 操作 ) 的 器 件 。 本 
节 将 通过 4 个 硬件 块 (与 门 、 或 门 、 反 相 器 和 多 路 选择 器 ) 来 构造 | ALU (Arthritic Logic Unit 或 
一 个 ALU， 并 演示 组 合 逻辑 是 如 何 工作 的 。 下 一 节 中 .我 们 将 展 ee 
示 如 何 通过 更 加 聪明 的 设计 来 加 速 加 法 。 ep 
因为 LEGv8 中 一 个 字 为 64 位 宽 ， 因 此 我 们 需要 一 个 64 位 宽 | sun Kelly-Booue， 
的 ALU。 假设 我 们 使 用 64 个 1 位 宽 ALU 来 构建 所 需 的 ALU。 那 ”| 座 外 加 尊 ，1981 























A-24 
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么 我 们 先 从 构建 1 位 宽 ALU 开始 。 


A.5.1 1 位 ALU 


逻辑 操作 是 最 简单 的 ， 因 为 可 以 直接 映射 为 图 A-2-1 
中 的 硬件 元 件 。 

AND 和 OR 对 应 的 1 位 逻辑 单元 如 图 A-5-1 所 示 。 ” [a 
右边 的 多 路 选择 器 选择 是 进行 a AND 6 操作 还 是 a OR 6 i Result 
操作 ， 取 决 于 Operation 的 值 为 0 还 是 1。 为 了 与 数据 信 。 。_ | ) 》 
号 线 进行 区 分 ， 多 路 选择 器 的 控制 信号 用 灰色 表示 。 需 。 图 .5.1 与 和 或 的 1 位 四 加 单元 
要 注意 的 是 ， 我 们 重新 命名 了 多 路 选择 器 的 控制 线 和 输 
出 线 ， 以 便 反映 它们 在 ALU 中 的 功能 。 

下 一 个 需要 增加 的 功能 是 加 法 。 加 法 器 必须 包含 两 个 输入 操作 数 ， 并 输出 一 位 和 。 同 时 ， 需 
要 另外 一 个 输出 来 传输 进位 ， 称 为 CaryOut。 因 为 来 自 相 邻 加 法 器 的 进位 是 作为 输入 处 理 的 ， 因 
此 加 法 器 需要 第 三 个 输入 。 这 个 输入 称 为 Canyfn。 图 A-5-2 显示 了 一 位 加 法 器 的 输入 和 输出 。 因 
为 我 们 知道 加 法 应 该 做 什么 ， 因 此 可 以 根据 输入 来 指定 这 个 “黑匣子 ”的 输出 ， 如 图 A-5-3 所 示 。 


Operation 


Caryin 





图 A-5-2 1 位 加 法 器 。 该 加 法 器 称 为 全 加 器 ， 
也 称 为 (3, 2) 加 法 器 ， 因 为 有 
3 个 输入 和 2 个 输出 。 如 果 一 个 加 
法 器 只 有 a 和 65 两 个 输入 ， 则 称 为 
Guryo (2，2 ) 加 法 器 或 半 加 器 








0+0+0=00two | 





0+0+1=0lwo 
0+1+0=0lwo 
0+1+1= 10wo 
1+0+0=0lwo | 
1+0+1=10wo 
1+1+0=10wo 
1+1+1=1ltwo 
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图 A-5-3 1 位 加 法 器 的 输入 输出 定义 


我 们 可 以 用 逻辑 方程 式 来 表示 输出 函数 CarryOut 和 Sum， 这 些 方程 式 又 可 以 通过 逻辑 
门 来 实现 。 以 CarryOut 为 例 。 图 A-5-4 显示 了 当 CarryOnut 为 1 时 ， 对 应 输入 的 值 。 
我 们 可 以 将 该 真 值 表 转 化 为 逻辑 方程 式 : 
CarryOut = (b * CarryIn) + (a * CarryIn) + (a * b) + (a* b* CarryIn) 


























图 A-5-4 当 CarryOut 为 1 时 的 输入 值 


如 果 a' 2 CarryIn 为 真 ， 则 剩余 的 三 个 乘积 项 也 必然 为 真 ， 因 此 我 们 可 以 对 应 真 值 表 

的 第 4 行将 最 后 一 项 省 略 掉 ， 从 而 将 方程 式 简 化 为 : 
CarryOut = (b* CarryIn) + (a * CarryIn) + (a* b) 

图 A-5-5 显示 了 加 法 器 黑 盒 内 部 的 硬件 ， 其 中 CarryOut 由 三 个 与 门 和 一 个 或 门 组 成 。 
三 个 与 门 分 别 对 应 上 式 中 括号 内 的 乘积 项 ， 或 门 用 来 得 到 三 个 乘积 项 的 和 。 

当 有 一 个 输入 为 1 或 三 个 输入 都 为 1 时 ，Sum 设置 为 1。Sum 对 应 的 布尔 等 式 较为 复杂 
(a 表示 NoT a)， 如 下 所 示 : 

Sum = (a, 5， CarryIn) + (5.5 ， CarryIn) + (2 5. CarryIn) + (ab CarryIn) 
如 何 画 出 加 法 器 中 Sum 对 应 的 逻辑 ， 留 给 读者 作为 练习 。 

图 A-5-6 所 示 的 是 用 加 法 器 和 之 前 的 部 件 组 成 的 1 位 ALU。 有 时 设计 人 员 也 希望 ALU 
能 完成 更 多 的 简单 操作 ， 比 如 生成 0。 增 加 操作 最 简单 的 方法 是 扩大 由 操作 线 控制 的 多 路 选 
择 器 ， 例 如， 将 0 直接 连 到 扩展 的 多 路 选择 器 的 新 输入 端 。 


Carryln Operation 














CarryOut 
图 A-5-5 加 法 器 中 产生 CarryOnut 信号 
的 硬件 。 加 法 器 硬件 的 剩余 Caryout 
部 分 即 上 式 中 输出 和 (Sum) 图 A-5-6 完成 “与 ”“ 或 ”和 “加 法 ” 运 
的 硬件 逻辑 算 的 一 个 1 位 ALU( 见 图 A-5-5 ) 


A.5.2 64 位 ALU 


既然 已 经 实现 了 1 位 的 ALU， 那么 64 位 ALU 就 可 以 通过 将 相 邻 的 “ 黑 盒子 ”连接 构 
成 。 用 点 表示 x 的 第 i 位 ,图 A-5-7 所 示 的 是 一 个 64 位 的 ALU。 犹 如 一 块 石头 也 能 使 涟 洲 
辐射 到 平静 的 湖岸 一 样 ， 最 低 有 效 位 的 一 个 进位 ( Result0 ) 能 通过 所 有 的 加 法 器 传输 ， 使 得 
最 高 有 效 位 ( Result63 ) 产生 进位 5。 因 此 ， 将 1 位 加 法 器 进位 直接 相连 的 加 法 器 称 为 行 波 进 

















个” 原 书 为 Result31， 应 为 笔 误 。 一 一 译 者 注 
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位 加 法 器 。 从 A.6 节 开 始 我 们 将 看 到 一 种 更 快 连接 1 位 加 法 器 的 方法 。 


Operation 





ALUO ~ Result0 











ALU2 > Result2 





b2 一 | 








a63—»| Carryin 
be3. ALU63 





Result63 











图 A-5-7 由 64 个 1 位 ALU 构成 的 64 位 ALU。 低 有 效 位 的 CarryOut 信号 连接 
到 高 有 效 位 的 CarryIn 信号 上 ， 这 种 组 织 方式 称 为 行 波 进位 


减法 和 加 上 操作 数 的 负数 是 等 价 的 ， 因 此 可 以 用 加 法 器 执行 减法 。 对 一 个 二 进 制 补 码 数 
求 相 负数 的 快速 方法 是 ， 将 这 个 数 按 位 取 反 ， 然 后 加 1。 为 了 反 转 每 一 位 ， 我 们 只 需 增加 一 
个 2:1 多 路 选择 器 ， 用 以 在 上 和 之 间 进 行 选 择 ， 如 图 A-5-8 所 示 。 

假设 将 64 个 1 位 的 ALU 连接 到 一 起 ， 如 图 A-5-7 所 示 。 所 添加 的 多 路 选择 器 根据 
Binvert 信号 选择 b 或 其 按 位 取 反 数 ， 但 是 这 仅 是 对 二 进 制 补 码 数 求 负数 的 一 个 步骤 。 注 意 ， 
最 低位 仍然 有 一 个 CarryIn 信号 ， 即 使 这 对 加 法 并 不 是 必要 的 。 如 果 我 们 用 1 代替 0 来 设置 
CarryIn 信号 ， 将 会 发 生 什么 ? 加 法 器 会 计算 a + b + 1。 通 过 将 b 取 反 ， 就 能 得 到 我 们 想 要 
的 结果 : 

a+b+l=a+(b+1)=a+(-b)=a-b 
二 进 制 补 码 加 法 器 设计 的 简单 性 有 助 于 解释 为 什么 二 进 制 补 码 会 成 为 整数 计算 机 算术 运算 的 
通用 标准 。 

LEGv8 的 ALU 还 需要 或 非 (NOR) 功能 。 我 们 可 以 通过 重复 使 用 ALU 内 部 已 经 有 的 
硬件 〈 如 同 我 们 在 减法 的 实现 中 所 做 的 一 样 ) 来 实现 这 种 功能 ， 而 不 需 单独 增加 一 个 或 非 门 。 
基本 的 原理 来 自 于 以 下 有 关 或 非 的 事实 : 

(a+b)=a.b 
即 a 或 5 的 非 和 非 a 与 非 b 是 等 价 的 ,这 也 被 称 为 德 * 摩根 定律 ， 练 习题 中 将 对 此 进行 更 加 
深入 的 探究 。 
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Binvert Operation 
Carryn | 








Result 











CarryOut 


图 A-5-8 对 a 和 4b 或 a 和 5 执行 与 、 或 以 及 加 法 的 1 位 ALU。 通 过 选择 5 (Binvert = 1 )， 并 
将 最 低 有 效 位 上 的 CarryIn 设置 为 1， 我 们 得 到 b 的 补 码 减 法 ， 而 不 是 b 到 a 的 加 法 


ALU 上 已 经 有 了 与 和 非 5，， 因 此 只 需要 再 增加 非 a， 图 A-5-9 所 示 的 是 改变 后 的 结构 。 


Ainvert Operation 
Binvert CarryIn 





Result 


CarryOut 


图 A-5-9 对 a 和 5 或 者 4 和 4 进行 与 、 或 以 及 加 法 的 1 位 ALU。 通 过 选择 a (Ainvert=1 ) 
和 4b (Binvert = 1 )， 能 得 到 a 或 非 6 而 不 是 a 与 5 


A.5.3 实现 LEGv8 的 64 位 ALU 


加 、 减 、 与 、 或 四 个 操作 几乎 在 每 一 台 计算 机 的 ALU 部 件 里 面 都 能 找到 ， 并 且 大 多 数 
的 LEGv8 指令 都 能 由 ALU 实现 。 但 ALU 的 设计 并 未 完成 。 

还 有 一 条 需要 支持 的 指令 是 比较 为 0 分 支 指令 CBZ。 回 顾 一 下 ，ALU 只 传输 寄存 器 输 
入 值 的 操作 。 要 使 得 ALU 执行 CBZ， 我 们 首先 需要 扩展 图 A-5-8 中 的 三 输入 多 路 选择 器 ， 
为 CBZ 结果 增加 一 个 输入 。 新 的 输入 称 为 Pass， 并 仅 用 于 CBZ。 
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A-5-10 上 面 给 出 的 是 一 个 新 的 扩展 了 多 路 选择 器 的 1 位 ALU。 图 A-5-11 给 出 了 64 
位 ALU。 


Ainvert Operation 
| Binvert Caryln | 
eget 








Result 











Binvert 


Result 




















图 A-5-10 顶部 为 一 个 对 a 和 4b 或 者 5 执行 与 、 或 以 及 加 法 的 1 位 ALU， 底 部 为 最 高 有 效 位 的 1 位 
ALU。 顶 部 的 图 上 有 一 个 直接 输入 ， 用 以 执行 stt 操作 ( 见 图 A-5-11 ) ; 底部 图 中 的 加 法 器 
有 一 个 用 于 指示 小 于 比较 的 直接 输出 ， 称 为 Set ( 见 练习 题 A.24， 了 解 如 何 用 较 少 的 输入 
计算 游 出 ) 


为 了 进一步 实现 适用 于 LEGv8 指令 集 的 ALU， 我 们 必须 支持 条 件 分 支 指令 。 这 些 指令 
根据 两 个 寄存 器 相等 或 不 相等 进行 分 支 。 通 过 ALU 检测 是 否 相 等 最 简单 的 方法 是 执行 a-b 
的 操作 ， 并 测试 结果 是 否 为 0， 由 于 

(a-b=0)=>a=b 
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因此 ， 如 果 我 们 增加 检测 结果 是 否 为 0 的 硬件 ， 就 能 测试 两 个 寄存 器 是 否 相等 。 最 简单 的 方 
式 是 将 所 有 输出 进行 或 操作 并 将 结果 取 反 (送信 反 相 器 )， 即 : 
Zero = (Result63 + Result62 + ... + Result2 + Resultl + Result0) 








Binvert Operation 
Ainvert 
Carryin 
a0 Carryin Result0 
b0 ALUO 
”| Less 
| CarryOut 
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图 A-5-11 一 个 复制 63 个 图 A-5-10 顶部 结构 和 一 个 图 A-5-10 底部 结构 组 成 的 64 位 ALU。 除 了 最 低 
有 效 位 ， 输 入 Less 都 连接 到 0， 最 低 有 效 位 连接 至 最 高 有 效 位 的 Set 输出 。 如 果 ALU 执行 
a 5b， 并且 我 们 选择 图 A-5-10 中 多 路 选择 器 的 输入 3， 那么 如 果 a < b，Result = 0…001， 
其 他 情况 Result = 0…000 


A-5-12 给 出 了 修改 后 的 64 位 ALU。 考 虑 将 1 位 Ainvert 线 、1 位 Binvert 线 以 及 2 位 
的 Operation 线 作 为 4 位 的 ALU 控制 线 结合 在 一 起 ， 用 以 指示 进行 加 、 减 、 与 、 或 ， 或 者 
slt 指令 中 的 哪 一 种 。 图 A-5-13 给 出 了 ALU 控制 线 以 及 相应 的 ALU 操作 。 


最 终 ， 我 们 看 到 了 64 位 ALU 的 内 部 结构 ， 我 们 用 通用 符号 表示 完整 的 ALU， 如 
图 A-5-14 所 示 。 


A.5.4 用 Verilog 定义 LEGv8 ALU 


图 A-5-15 展示 了 如 何 用 Verilog 定义 LEGv8 ALU (组 合 逻 辑 )， 这 样 的 定义 可 能 会 通过 实 
例 化 标准 单元 库 中 的 加 法 器 来 进行 编译 。 为 了 完整 性 , 图 A-5-16 中 展示 了 LEGv8 的 ALU 控 
制 器 (在 第 4 章 使 用 过 )， 在 这 个 控制 器 上 我 们 建立 了 一 个 Verilog 版 本 的 LEGv8 数据 通路 。 
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图 A-5-13 三 个 ALU 控制 线 、Bnegate 和 Operation 的 值 以 及 对 应 的 ALU 操作 


ALU operation 





图 A-5-14 ALU 常用 表示 符号 。 该 符号 
也 用 来 表示 加 法 器 ， 因 此 通 
CaryOut 常 需要 标记 出 ALU 或 Adder 
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module MIPSALU (ALUct], A, B, ALUOut， Zero); 
input [3:0] ra 
input [63:0] A 
output reg [63: :gj ALUOut 
output Zero; 
assign Zero = (ALUOut 一 0); //Zero is true if ALUOut is 0 
always @(ALUct1，A，B) begin //reevaluate if these change 
case (ALUct1) 
0: ALUOut 
1: ALUOut 
2: ALUOut 
6: ALUOut 
7: ALUOut 0; 
12: ALUOut “= ~(A | a 有 result is nor 
default: ALUOut <= 0; 
endcase 


入 人 入 八 人 入 人 


Dn 


入 


end 
endmodule 











图 A-5-15 LEGv8 ALU 的 Verilog 行为 级 定义 





module ALUControl (ALUOp, FuncCode, ALUCt1); 
input [1:0] ALUOp; 
input [5:0] FuncCode; 
output [3:0] reg ALUCt1; 
always case (FuncCode) 
32: ALUOp<=2; // add 
34: ALUOp<=6; //subtract 
36: ALUOP<-0; // and 
37: AtUyOp¢=1; // or 
39: ALUOp<=12; // A 
42: ALUOpK=7; // 
default: ALUDp<= 1 1 should not happen 
endcase 
endmodule 


图 A-5-16 LEGv8 ALU 控制 : 简单 的 组 合 控制 逻辑 











下 一 个 问题 是 ，ALU 将 两 个 64 位 的 操作 数 相 加 能 有 多 快 ” 我 们 能 决定 输入 a 和 4b, 但 
是 输入 CarryIn 取决 于 相 邻 的 1 位 加 法 器 的 操作 。 如 果 我 们 跟踪 有 依赖 关系 的 进位 链 ， 将 最 
高 有 效 位 连接 到 最 低 有 效 位 上 ， 那 么 和 的 最 高 有 效 位 必须 等 到 所 有 64 个 1 位 加 法 器 顺序 完 
成 计算 后 才能 得 到 。 这 种 顺序 链 的 反应 太 慢 ， 以 至 于 不 能 在 时 间 关 键 的 硬件 电路 中 使 用 。 下 
一 节 将 探究 如 何 加 快 加 法 的 速度 。 这 个 论题 对 于 理解 附录 的 其 余部 分 并 不 重要 ， 可 以 跳 过 。 








A.6 快速 加 法 : 超前 进位 

加 快 加 法 的 关键 在 于 更 快 地 确定 高 阶 位 的 进位 。 有 多 种 方案 来 预测 进位 ， 使 得 最 坏 情况 [37 
是 加 法 器 中 所 有 位 数 log2 的 函数 。 由 于 进位 经 过 的 逻辑 门 较 少 ， 所 以 这 些 预测 信号 执行 得 比 
较 快 ， 但 是 需要 更 多 的 门 来 进行 预测 。 
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理解 快速 进位 的 关键 在 于 : 无 论 输 入 何 时 改变 ， 硬 件 都 是 并 行 执行 的 ， 这 一 点 与 软件 不 同 。 
A.6.1 使 用 “无 限 ”硬件 的 快速 进位 
正如 前 面 提 到 的 ， 任 何 一 个 方程 式 都 能 用 两 级 逻辑 表示 。 因 为 外 部 输入 只 有 两 个 操作 数 和 加 法 
器 的 最 低位 的 Caryim， 在 理论 上 我 们 可 以 在 两 级 逻辑 层 上 计算 出 到 加 法 器 所 有 剩余 位 的 CaryIn 值 。 
例如 ， 加 法 器 bit 2 的 CarryIn 实际 是 bit 1 的 CarryOut， 因 此 公式 为 : 
CarryIn2 = (bl .CarryInl ) + (al * CarryIn1 ) + (al * bl ) 
类 似 地 ，CarryInl 可 以 定义 为 
CarryInl = (b0 * CarryIn0 ) + (a0 + CarryIn0 ) + (a0 + b0 ) 
用 ci 代替 CarryIni， 上 式 重 写 为 
c2=(bl.cl)+(al'cl)+(al*bl) 
cl=(b0*c0)+(a0.c0)+(a0:b0) 
将 表达 式 cl 带 入 第 一 个 公式 ， 可 得 : 
c2=(al.a0.b0)+(al'a0.c0).(al.b0.c0) 
+(bl.a0.b0)+(bl'a0'c0)+(bl'bl'c0)+(al'bl) 
可 以 想象 一 下 ， 对 于 加 法 器 中 的 更 高 位 ， 方 程式 会 如 何 扩大 ? 它 将 随 着 位 数 的 增加 而 快速 增 
加 。 这 一 复杂 性 影响 了 快速 进位 的 硬件 开销 ， 因 此 这 一 简单 方案 对 于 宽 加 法 器 而 言 非常 昂贵 。 


A.6.2 采用 第 一 级 抽象 的 快速 进位 :进位 传输 和 进位 生成 
大 多 数 的 快速 进位 方法 都 会 限制 方程 式 的 复杂 性 以 简化 硬件 ， 同 时 与 行 波 进位 相 比 速度 
得 到 了 大 幅度 提高 。 其 中 一 种 机 制 称 为 超前 进位 加 法 器 。 在 第 1 章 中 已 经 介绍 了 ， 计 算 机 系 
统 通 过 使 用 抽象 层次 来 处 理 复杂 性 。 超 前 进位 加 法 器 依赖 于 其 实现 过 程 中 的 抽象 级 别 。 
首先 考虑 原始 方程 : 
cit+1= (bi*ci)+ (ai* ci)+(ai bi)= (ai* bi)+ (ai+bi)* ei 
如 果 用 这 个 公式 重 写 c2 的 方程 ， 我 们 将 会 看 到 一 些 重复 的 部 分 : 
c2= (al -bl)+(al*:b1l):((a0.b0)+ (a0+b0).c0) 
注意 到 (ai* bi) 和 (ai+b) 在 上 面 的 公式 中 重复 出 现 ， 这 两 个 重要 函数 通常 称 为 进位 生成 
(gi) 和 进位 传输 (p): 
gi=ai* bi 
pi=ai+bi 
用 它们 来 定义 ci+ 1， 可 得 : 
cit+1l=git+pi*ci 
为 了 理解 信号 是 从 哪里 得 到 的 ,假设 gi= 1， 即 
ci+1=gi+pi' ci=1+pi ci=1 
也 就 是 说 ， 加 法 器 生成 一 个 独立 于 Caryin (ci) 值 的 CaryOut (ci+1)。 现在 假设 gj=0, pi=1， 则 
cit+l=gitpi*ci=0+1*:ci=ci 
也 就 是 说 ， 加 法 器 将 CarryIn 传输 到 CarryOut。 将 以 上 二 者 放 在 一 起 可 得 ,无 论 gi= 1 或 者 
pi=1 有 CarryIni=1, CarryIni+1=1。 
作为 比喻 ,想象 一 排 多 米 诺 骨牌 。 假 设 两 张 牌 之 间 没 有 间 了 上院， 那么 推倒 远 处 的 一 张 牌 
可 以 将 最 后 一 张 多 米 诺 骨 牌 推倒 。 类 似 地 ， 一 个 进位 可 以 通过 远 处 的 一 个 生成 因子 而 使 其 为 
真 ， 只 要 它们 之 间 所 有 的 传输 因子 均 为 真 。 
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根据 传输 因子 和 生成 因子 的 定义 ,我 们 将 其 作为 第 一 级 抽象 ， 从 而 能 更 加 方便 地 描述 

CarryIn 信号 。 下 面 所 示 的 是 4 位 的 情况 : 

cl=g0+ (pO*c0) 

c2=gl+ (pl*g0)+(pl*p0:c0) 

c3=g2+(p2:g1)+(p2:pl*g0)+(p2:pl*: pO:c0) 

c4=g3+(p3*g2)+(p3*p2*gl)+(p3*p2*pl*g0)+(p3:p2*:pl*pO*c0) 
这 些 方程 式 只 代表 一 般 情况 : 如 果 之 前 的 加 法 器 生成 了 一 个 进位 ， 并 且 所 有 中 间 加 法 器 都 传 
输 进 位 ， 那 么 CarryIni= 1。 图 A-6-1 采用 管道 来 解释 先行 (超前 ) 进位 。 





图 A-6-1 以 管道 和 阀门 类 比 1 位 、2 位 、4 位 超前 进位 。 扳 手 用 于 打开 和 关闭 阀门 。 水 用 灰色 部 分 表示 。 
如 果 最 近 的 进位 生成 因子 的 值 ( gi) 处 于 打开 状态 ,或 者 第 i 个 进位 传输 因子 ( pi) 也 是 打开 
的 并且 上 游 有 水 (来 自 之 前 生成 的 或 从 后 面 传 过 来 的 水 )， 那 么 管道 的 输出 ( ci+ 1 ) 将 会 变 
满 。 没 有 任何 生成 因子 ，CarryIn (c0 ) 也 能 产生 一 个 进位 输出 ,但 是 需要 所 有 传输 因子 的 帮助 


即便 是 这 种 简化 的 形式 也 会 导致 大 的 方程 式 ， 因 此 即使 是 一 个 16 位 的 加 法 器 也 有 相当 
可 观 的 逻辑 。 下 面 我 们 试 着 移动 两 个 抽象 层次 。 


A.6.3 ”采用 第 二 级 抽象 的 快速 进位 
首先 ， 我 们 考虑 4 位 的 加 法 器 ， 其 超前 进位 逻辑 作为 一 个 单独 的 块 。 如 果 将 4 位 加 法 器 以 
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行 波 进位 方式 相连 构成 一 个 16 位 的 加 法 器 ， 那 么 加 法 将 比 原来 更 快 ， 并 且 只 增加 了 少数 的 硬件 。 
为 了 执行 得 更 快 ， 需 要 将 超前 进位 放置 在 更 高 层 上 。 为 了 实现 4 位 加 法 器 的 超前 进位 ， 
需要 将 传输 因子 和 生成 因子 信号 也 置 于 较 高 的 层次 。 下 面 是 4 位 加 法 器 的 块 : 
P0=p3' p2 .pl p0 
Pl=p7* p6:p5*p4 
P2=pll* pl0* p9* p8 
P3=pl15. pl4: pl3: pl2 
因此 ， 当 且 仅 当 组 中 每 一 位 都 将 传输 一 个 进位 时 ， 用 于 4 位 抽象 的 “超级 ”传输 信号 (Pi) 为 真 。 
对 于 “超级 ”生成 信号 (Gi)， 我们 只 关心 4 位 的 组 中 最 高 有 效 位 是 否 有 一 个 进位 。 如 果 
最 高 有 效 位 生成 因子 为 真 ， 那 么 这 些 情 况 是 显而易见 的 。 如 果 较 早 的 一 个 生成 因子 为 真 ， 并 
且 所 有 中 间 传 输 因子 (包括 最 高 有 效 位 的 ) 也 为 真 ， 以 上 情况 也 是 会 出 现 的 。 
G0=g3+(p3*g2)+(p3*p2:g1)+(p3: p2* pl: g0) 
G1=87+(p7.86)+(p7.p6.85)+(p7.p6.p5.84) 
G2=gll+ (pll* g10)+ (pll * pl0* g9)+ (pll* pl0*:p9: g8) 
G3=gl5+ (pl5* g14) + (pl5* pl4* g13)+ (pl5* pl4: pl3. g12) 
图 A-6-2 更 新 了 管道 类 比 ， 以 显示 P0 和 G0。 





图 A-6-2 下 一 级 超前 进位 信号 P0 和 G0 的 管道 类 比 。 仅 当 所 有 4 个 进位 传输 因子 (pi) 都 打开 时 PO 
打开 ; G0 里 有 水 流 ， 仅 当 至 少 有 一 个 进位 生成 因子 ( gi) 打开 ， 并 且 从 该 生成 因子 开始 下 
游 所 有 的 进位 传输 因子 都 是 打开 的 
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对 16 位 加 法 器 的 每 一 个 4 位 组 的 进位 在 较 高 的 层次 上 抽象 为 C1I、C2、C3、C4 (如 
图 A-6-3 )， 类 似 于 A.6.2 节 4 位 加 法 器 的 cl、c2、c3、c4: 

Cl=G0+ (PO0: c0) 

C2=G1+ (Pl:G0)+(Pl:PO:¢c0) 

C3=G2+(P2.G1)+(P2.P1.G0O)+(P2.PI1.P0.c0) 

G4=G3+(P3.G2)+(P3.P2.G1)+(P3.P2.PI1-G0)+(P3.P2-P1.P0.e0) 

图 A-6-3 中 4 位 的 加 法 器 连接 到 这 样 一 个 超前 进位 单元 。 练 习题 中 会 探究 这 些 进位 方案 
间 速 度 的 差异 、 多 位 传输 信号 和 生成 信号 的 不 同 表示 ， 并 讨论 64 位 加 法 器 的 设计 。 
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bo * Result0-3 
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b14 一 | Ps 上 pi+3 




















呈 G3| 上 | gi+3 
Fas | 
CarryOut 
图 A-6-3 4 个 4 位 ALU 使 用 超前 进位 形成 16 位 加 法 器 。 注 意 ， 进 位 均 来 自 超前 进位 单元 ， 而 不 是 4 
位 的 ALU 

| 例题 | 进位 传输 因子 和 进位 生成 因子 = 

确定 下 列 两 个 16 位 数 的 Bi、pi、Pi 以 及 Gi 值 : 

a: 0001 1010 0011 0011,... 


b: 1110 0101 1110 1011., 
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同样 ，CarryOut15 (C4 ) 的 值 是 多 少 ? 
| 答案 | 将 各 位 对 准 ， 以 便 更 容易 观察 进位 生成 因子 gi ( ai . bi) 和 进位 传输 因子 pi (ai+ bi 
的 值 : 


LH 0001 1010 0011 0011 
b: 1110 0101 1110 1011 
gi: 0000 0000 0010 0011 


pi: 1111 1111 1111 1011 


从 左 到 右 各 位 依次 标记 为 15 一 0。“ 超 级 ”进位 传输 因子 (P3、P2、P1、P0 ) 是 低级 进位 传 
输 因子 的 简单 相 与 。 
P3=1°*1°: 
12 
1 


fy i 


让 
1*1 
bi 
PO=1"0"1"…1 
“超级 ”进位 生成 因子 较 复杂 一 些 ， 用 下 式 表示 : 
G0=83+(p3 .82)+(p3.p2'.8gl1)+(p3.p2.pl.80) 
=0+(1.0)+(1.0.1)+(1.0.1.1)=0+0+0+0=0 
Gl=g7+(p7'g6)+(p7*p6*g5)+(p7:p6*p5:g4) 
=0+(1"0)+(1 1-1)+(-1 1.0)=-0+0+1+0=1 
G2=gll+ (pll * g10)+ (pll * pl0* g9)+ (pll* pl0* p9* g8) 
=0+(1°0)+(1°1°0)+(1-:1.1.0)=0+0+0+0=0 
G3=g1l5+ (pl5° g14)+ (pl5* pl4° g13)+ (pl5* pl4° pl3°* g12) 
=0+(1.0)+(1'1.0)+(1.1.1.0)=0+0+0+0=0 
最 后 ，CarryOut15 为 : 
C4=G3+(P3.G2)+(P3*P2:G1)+(P3*P2:Pl'G0)+(P3.P2.Pl':PO.:c0) 


=0+(1°0)+(1°1°:1)+(1:1:1*:0)+(1.1.1:0:0) 
=0+0+1+0+0=1 
因此 ， 这 两 个 16 位 的 数 相 加 之 后 会 有 一 个 进位 输出 。 





超前 进位 能 快速 进位 的 原因 是 ， 当 时 钟 周期 开始 时 所 有 的 逻辑 单元 同时 开始 计算 ,并 且 
一 旦 每 个 门 的 输出 停止 变化 ， 结 果 就 不 会 改变 。 通 过 利用 更 少 的 门 发 送 进位 信号 这 种 快捷 方 
式 ， 门 的 输出 将 很 快 停止 变化 ， 因 此 加 法 器 花费 的 时 间 就 变 少 了 。 

为 了 更 好 地 理解 超前 进位 的 优点 ， 我 们 可 以 计算 其 与 行 波 进位 加 法 器 之 间 的 相对 性 能 。 


| 例题 | 行 波 进位 加 法 器 和 超前 进位 加 法 器 速度 的 比较 。 
一 种 为 逻辑 建立 时 间 模 型 的 简单 方法 是 ， 假 设 每 个 与 门 或 者 或 门 的 延迟 是 相同 的 。 通 过 
简单 计算 逻辑 路 径 上 门 的 数量 来 估计 时 间 。 比 较 两 个 16 位 加 法 器 路 径 上 门 延 迟 的 数量 ， 一 
个 用 行 波 进位 ， 另 一 个 用 两 级 超前 进位 。 
| 答案 | A.5 节 中 图 A-5-5 所 示 的 每 个 进位 输出 信号 每 位 需要 两 个 门 延 迟 。 从 最 低 有 效 位 上 的 
进位 输入 到 最 高 有 效 位 上 的 进位 输出 之 间 的 门 延 迟 为 32 x 2=64。 
对 于 超前 进位 ， 最 高 有 效 位 的 进位 输出 正 是 例子 中 定义 的 C4。 用 Pi 和 Gi 两 级 逻辑 ( 几 个 
AND 组 成 的 OR 式 ) 定义 了 C4。Pi 在 一 级 逻辑 (AND) 中 用 pi 定义 ，Gi 在 两 级 逻辑 中 用 pi 和 
包 定 义 。 因 此 ， 对 该 下 一 级 抽象 最 差 的 情况 是 两 级 钦 辑 。pi 和 gi 都 是 用 ai 和 bi 定义 的 一 级 届 
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辑 。 假 设 这 些 方程 中 ， 每 个 逻辑 级 都 是 一 个 门 延迟 ， 那 么 最 坏 的 情况 是 2+2+1=5 个 门 延迟 。 
因此 ， 采 用 这 种 简单 的 硬件 速度 估算 方法 ， 对 于 从 进位 输入 到 进位 输出 的 路 径 ，16 位 超 
前 进位 加 法 器 的 速度 是 行 波 进位 加 法 器 的 6 倍 。 业 


A.6.4 小 结 


超前 进位 提供 了 比 32 个 1 位 加 法 器 构成 的 行 波 进位 更 快 的 路 径 。 这 个 快速 通路 由 两 个 
信号 保证 ， 即 进位 生成 因子 和 进位 传输 因子 。 前 者 在 不 考虑 进位 输入 的 情况 下 计算 进位 ， 而 
后 者 传输 进位 。 超 前 进位 加 法 器 又 是 一 个 很 好 的 例子 ， 说 明了 抽象 思想 对 于 计算 机 设计 时 解 
决 复杂 化 问题 的 重要 性 。 

陋 负 我 们 基本 已 经 描述 了 核心 LEGv8 指令 集 的 全 部 操作 ， 除 了 一 个 算术 逻辑 操作 之 
外 : 图 A-5-14 中 的 ALU 省 略 了 对 移 位 指令 的 支持 。 可 以 将 ALU 的 多 路 复 用 器 加 宽 ， 以 包 
括 左 移 1 位 或 右 移 1 位 。 但 硬件 设计 人 员 设 计 了 一 种 电路 ， 称 为 桶 形 移 位 器 〈barrel shifter)， 
它 可 以 从 1 移 到 63 位 ， 而 消耗 的 时 间 不 多 于 将 两 个 64 位 的 数 相 加 的 时 间 ， 所 以 移 位 操作 通 
常 在 ALU 外 部 完成 。 

网 锯 A.5 节 中 ， 全 加 器 输出 Sum 的 逻辑 方程 可 以 用 一 个 比 与 门 和 或 门 能 力 更 强 的 门 来 
表示 ， 即 异 或 门 。 如 果 两 个 操作 数 不 同 ， 异 或 门 输出 为 真 ， 即 

x¥y>1 且 zx 一 7 之 0 
在 一 些 技术 中 ， 异 或 门 比 两 级 的 与 门 和 或 门 的 执行 效率 更 高 。 用 四 来 表示 异 或 运算 ， 则 等 式 
可 以 重新 表达 为 : 





Sum =a@Bb DBCarryIn 
同样 ， 我 们 用 这 种 传统 的 门 级 表示 方法 来 表示 ALU 电路 。 当 今 的 计算 机 都 是 用 CMOS 晶体 
管 (基本 是 开关 ) 设计 的 。CMOS ALU 以 及 桶 形 移 位 器 利用 了 开关 的 优点 ， 并 且 使 用 的 多 路 
选择 器 比 文中 的 设计 少 得 多 ， 但 设计 原理 是 相似 的 。 
罗 髓 当 有 两 个 以 上 级 别 时 ， 用 小 写 和 大 写字 母 来 区 分 进位 生成 和 进位 传输 因子 的 层次 
结果 。 另 一 种 表示 方法 是 使 用 gi.j 和 pi.j 代表 从 位 到 六 位 的 进位 生成 信号 和 进位 传输 信和 号。 
因此 ， 位 1 生成 g1..1， 位 4 到 位 1 生成 g4..1， 位 16 到 位 1 生成 g16..1。 








A.7 ”时钟 

在 我 们 讨论 存储 元 件 和 时 序 逻 辑 之 前 ， 有 必要 简要 地 讨论 一 下 时 钟 。 本 节 讨 论 这 一 主 
题 ， 内 容 同 4.2 节 中 的 讨论 类 似 。 更 多 的 关于 时 钟 和 时 序 方法 的 细节 在 A.11 节 讨 论 。 

时 序 逻 辑 需要 时 钟 来 决定 包含 状态 的 存储 元 件 何 时 被 更 新 。 时 钟 是 一 个 具有 固定 周期 时 
间 的 不 停 运 行 的 信号 ， 时 钟 频率 是 周期 时 间 的 倒数 。 如 图 A-7-1 所 | 边沿 触发 时 钟 ， 一 种 时 钟 
示 ， 时 钟 周 期 时 间或 者 说 时 钟 周期 被 分 为 两 部 分 ， 即 高 电 平时 钟 和 | 机 制 ， 所 有 状态 改变 都 发 
低 电 平 时 钟 。 本 书 中 ,我 们 只 使 用 边沿 触发 时 钟 (edge-triggered | 生 在 时 钟 边沿 。 
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clocking)。 这 意味 着 所 有 的 状态 改变 都 将 发 生 在 时 钟 边沿 。 我 们 之 所 
以 使 用 基于 边沿 触发 的 时 钟 策 略 ， 是 因为 该 策略 更 易于 解释 。 从 工 
艺 学 的 角度 来 看 ， 该 策略 可 能 是 也 可 能 不 是 时 钟 同步 方法 ( clocking 
methodology ) 的 最 佳 选择 。 


= a 


图 A-7-1 时 钟 信号 在 高 电 平 和 低 电 平 之 间 振 荡 。 时 钟 周期 是 一 个 完整 周期 的 时 间 。 在 
边沿 触发 的 设计 中 ， 有 效 的 上 升 沿 或 下 降 沿 都 可 以 造成 状态 的 改变 

在 一 种 边沿 触发 的 方法 中 ， 时 钟 的 上 升 沿 或 下 降 沿 都 可 以 是 有 效 的 ， 并 可 以 造成 状态 的 
改变 。 在 下 一 节 中 我 们 会 看 到 ， 边 沿 触发 设计 中 的 状态 单元 ( state 
element)， 其 内 容 仅 在 有 效 的 时 钟 沿 改变 -。 选择 哪 一 个 时 钟 边 沿 作为 
有 效 边 沿 受 实现 策略 的 影响 ， 且 不 会 影响 逻辑 设计 中 所 涉及 的 概念 。 

时 钟 边沿 可 以 作为 采样 信和 号， 导致 状态 单元 的 输入 值 被 采样 且 存储 在 状态 单元 中 。 使 用 
边沿 触发 器 意味 着 采样 过 程 实际 上 是 瞬时 的 ， 可 以 消除 信号 在 很 小 的 时 间 差 内 被 采样 可 能 导 
致 的 问题 。 

时 钟 系统 即 同步 系统 ( synchronous system)， 最 主要 的 限制 是 被 | 同步 系统 ， 使 用 时 钟 的 存 
写 入 状态 单元 的 信号 在 有 效 时 钟 边沿 必须 是 有 效 的 。 信 号 稳定 (不 | 刍 系 统 ， 只 有 当时 钟表 明 
改变 ) 时 才 是 有 效 信号 ， 并 且 在 输入 不 变 时 ， 信 号 值 不 会 改变 。 因 | 入 六合 天守 时， 和 
为 组 合 电 路 没有 反馈 ， 因 此 如 果 组 合 逻辑 的 输入 没有 改变 ， 那 么 组 E 
合 逻 辑 的 输出 最 终 会 变 为 有 效 。 

图 A-7-2 显示 了 一 个 同步 时 序 逻 辑 设计 中 状态 单元 和 组 合 逻 辑 单元 间 的 关系 。 状 态 单元 
的 输出 只 在 时 钟 边沿 之 后 改变 ， 并 为 组 合 逻 辑 块 提供 有 效 的 输入 。 为 了 保证 在 有 效 时 钟 边沿 
写 人 状态 单元 的 数据 是 有 效 的 ， 时 钟 周期 必须 足够 长 ， 才 能 保证 组 合 逻辑 块 中 的 所 有 信和 号 都 
达到 稳定 ， 并 且 时 钟 边沿 采样 这 些 数据 ， 并 将 其 存储 在 状态 单元 中 。 这 个 约束 设置 了 时 钟 周 
期 长 度 的 下 界 ， 即 时 钟 周期 必须 足够 长 ， 以 便 所 有 状态 单元 的 输入 有 效 。 


状态 
时 钟 周期 


图 A-7-2 组 合 逻 辑 块 的 输入 来 自 状态 单元 ， 同 时 其 输出 被 写 人 状态 单元 。 时 钟 边沿 决 
定 了 状态 单元 的 内 容 何 时 被 更 新 


在 附录 的 其 他 部 分 和 第 4 章 ， 我 们 通常 忽略 时 钟 信号 ， 因 为 我 们 假设 所 有 的 状态 单元 都 
会 在 同一 时 钟 边沿 更 新 。 一 些 状态 单元 会 在 每 个 时 钟 边沿 被 写 人 ， 而 其 他 一 些 仅仅 在 确定 的 
条 件 下 被 写 人 (如 某 个 寄存 器 被 更 新 )。 在 这 种 情况 下 ， 我 们 会 使 用 一 个 显 式 的 写 信号 来 控 
制 这 个 状态 单元 。 写 信号 必须 经 过 时 钟 门 控 ， 从 而 只 有 在 写 信号 有 效 时 ， 状 态 单元 才能 在 时 


时 钟 同步 方法 : 一 种 根据 
时 钟 来 决定 数据 何 时 有 效 
和 稳定 的 方法 。 




















| 状态 单元 :一 种 存 伐 元 件 
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钟 边沿 上 进行 更 新 。 我 们 将 在 下 一 节 学 习 和 使 用 这 一 机 制 。 

边沿 触发 机 制 的 另 一 优势 是 可 以 将 一 个 状态 单元 同时 作为 同一 组 合 逻 辑 块 的 输入 和 输 
出 ， 如 图 A-7-3 所 示 。 实 际 上 ， 在 这 种 情况 下 必须 要 防止 竞争 ， 同 时 要 保证 时 钟 周期 足够 
长 。 这 一 问题 将 在 A.11 节 讨 论 。 


状态 合 ; 


图 A-7-3 边沿 触发 策略 允许 一 个 状态 单元 在 同一 个 时 钟 周期 内 被 读 写 ， 不 会 引起 导致 不 确定 数据 
值 的 竞争 。 时 钟 周 期 必须 足够 长 ， 从 而 使 有 效 时 钟 沿 到 来 时 输入 数据 值 是 稳定 的 


现在 我 们 已 经 讨论 了 时 钟 是 如 何 用 来 更 新 状态 单元 的 ， 可 以 进一步 讨论 如 何 构建 状态 单元 。 

匡 阴 有 了 时， 设计 者 发 现 ， 让 少数 状态 单元 在 和 大 多 数 状态 单元 相反 的 时 钟 沿 进行 状态 
变化 是 非常 有 用 的 。 但 是 在 使 用 这 种 方法 时 需要 十 分 小 心 ， 因 为 会 影响 到 状态 单元 的 输入 和 
输出 。 为 什么 设计 者 还 要 这 么 做 呢 ? 考虑 这 样 的 情况 ， 一 部 分 作为 状态 单元 输入 或 者 输出 的 
组 合 逻 辑 十 分 小 ， 以 至 于 它们 可 以 在 半 个 周期 内 完成 ， 而 不 是 通常 的 完整 时 钟 周期 。 因 此 状 
态 单元 可 以 在 半 个 周期 的 时 钟 边 沿 被 号 入 ， 因 为 输入 和 输出 在 六 个 “| 中文 件 ， 包 仿 一 不 列 
时 钟 周期 之 后 都 是 有 效 的 。 这 种 技术 经 常 被 用 在 寄存 器 文件 中 ， 在 | 生存 器 的 滩 太 单元 ， 通 过 
害 存 器 文件 中 ， 人 简单 的 寄存 器 文件 读 写 通常 可 以 在 半 个 时 钟 周期 内 “| 寄存 器 号 进行 读 写 。 
完成 。 第 4 章 使 用 这 种 策略 来 减少 流水 线 开销 。 


A.8 存储 元 件 : 触发 器 、 锁 存 器 和 寄存 器 


在 本 节 及 下 一 节 中 ,我 们 将 讨论 存储 元 件 的 基本 原理 ， 从 触发 器 、 锁 存 器 开始 ， 再 介绍 
寄存 器 文件 ， 最 后 介绍 存储 器 。 所 有 的 存储 元 件 都 存储 着 一 些 状态 : 存储 元 件 的 输出 不 仅 取 
决 于 当前 的 输入 ， 而 且 与 当前 存储 的 数据 值 有 关 。 因 此 所 有 包含 存储 元 件 的 逻辑 块 都 包含 有 
状态 信息 ， 属 于 时 序 逻 辑 。 

最 简单 的 存储 元 件 类 型 是 无 时 钟 的 ， 即 这 些 元 件 都 没有 任何 时 钟 输入 。 虽 然 本 书 中 我 
们 只 使 用 时 钟 控制 的 存储 元 件 ， 但 因为 无 时 钟 的 锁 存 器 是 最 简单 的 存储 元 件 ， 所 以 我 们 将 先 
讨论 这 种 元 件 。 图 A-8-1 为 一 个 S-R 锁 存 器 ( set-reset 锁 存 器 )， 该 锁 存 器 由 一 对 或 非 门 构成 
(或 门 加 输出 反 相 )。 输 出 信号 Q 和 局 表 示 存 储 的 数据 及 其 反 相 数 据 。 当 S 入 都 为 无 效 时 ， 
交叉 耦合 的 或 非 门 就 作为 一 个 反 相 器 ， 存 储 先前 的 Q 和 6 的 值 。 








R @。 图 A-8-1 一 对 交叉 焰 合 的 或 非 门 可 以 存 

储 一 个 内 部 值 。 存 储 在 输出 O 
上 的 值 通过 反 转 来 获得 0， 然 
后 再 反 相 O 以 获得 O。 如 果 尺 
或 有 效 ， 那么 QO 无 效 , 反 
之 亦 然 


ol 


S 


例如 ， 如 果 输 出 @ 为 真 ， 那 么 下 面 的 反 相 器 将 产生 一 个 值 为 假 的 输出 〈 即 2)， 这 个 输出 
又 成 为 上 面 反 相 器 的 输入 ， 上 面 的 反 相 器 产生 一 个 值 为 真 的 输出 ， 即 2， 之 后 一 直 循环 下 去 。 
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如 果 S 有 效 ， 那么 输出 2 为 有 效 ， 为 无 效 ; 如 果 R 有 效 ， 则 输出 有效，Q 无 效 。 如 果 5 
和 RR 都 有 效 ， 则 Q 各 最 后 的 值 将 被 存储 在 交叉 耦合 结构 内 。 同 时 将 S 和 RR 置 为 有 效 ， 可 
能 会 导致 错误 的 操作 : 这 取决 于 5 和 尺 是 如 何 被 拉 高 的 >， 锁 存 器 可 能 会 不 停 地 摆动 ， 也 可 能 
处 于 亚 稳 态 (这 部 分 将 在 A.11 节 中 详细 介绍 )。 

这 种 交叉 耦合 结构 是 复杂 存储 元 件 (存储 数据 信号 ) 的 基础 。 这 些 存 储 元 件 包含 额 外 的 
门 用 米 存储 信号 ， 并 使 得 该 状态 仅 与 时 钟 一 起 更 新 。 下 一 节 将 讲述 如 何 构建 这 些 存储 元 件 。 


A.8.1 触发 器 和 锁 存 器 


触发 器 ( flip-flop) 和 锁 存 器 ( latch) 是 最 简单 的 存储 元 件 。 在 生发 琶 ， 一 种 存 信 元 件 ， 
和 触发 器 和 锁 存 器 中 ， 输 出 信号 的 值 都 与 存储 元 件 中 存储 的 状态 一 致 。 | 其 榆 出 与 内 部 存储 的 榴 丰 
而 且 ， 与 上 面 提 到 的 S-R 锁 存 器 不 同 ， 从 现在 开始 ， 我 们 使 用 的 所 | 一至， 并 且 内 部 状态 只 在 
有 触发 器 和 锁 存 器 都 是 带 时 钟 的 ， 这 意味 着 这 些 存储 元 件 将 包含 时 【时 外 边 汉 发 生变 化 。 
钟 输 入 信号 ， 并 且 状 态 改变 由 时 钟 触 发 。 触 发 器 与 锁 存 器 间 的 差别 
在 于 ， 在 哪个 时 间 点 上 时 钟 会 导致 状态 实际 改变 。 在 一 个 包含 时 外 a 
的 锁 存 器 中 ， 当 输入 变化 并 且 时 钟 信号 有 效 时 ， 状 态 发 生变 化 。 而 “| 一 中 ， 只 要 给 入 发 生变 化 
在 触发 器 中 ， 状 态 仅 在 时 钟 边 沿 改变 。 在 本 书 中 ， 我 们 使 用 边沿 触 “| 并 卫 时 钟 有 效 ， 存 储 杖 坟 
发 的 时 钟 方法 ， 即 存储 状态 只 在 时 钟 边沿 发 生变 化 ， 因 此 我 们 只 使 《| 就 会 陡 之 发 生变 化 。 
用 触发 器 。 触 发 器 通常 由 锁 存 器 构成 ， 因 此 我 们 先 介绍 简单 的 带 时 
钟 的 锁 存 器 ， 然 后 讨论 由 这 些 锁 存 器 构成 的 触发 器 的 一 些 操作 。 DD 触发 器 ， 包 仿 一 个 恰 入 数 
对 计算 机 应 用 程序 来 说 ， 触 发 器 和 镇 存 器 的 功能 都 是 存储 信号 。 ee 
D 锁 存 器 或 D 触发 器 ( flip-flop) 将 输入 的 数据 信号 存储 在 内 部 元 件 | 入 信号 存储 到 内 部 元 件 中 。 
中 。 尽 管 有 很 多 类 型 的 锁 存 器 和 触发 器 ， 但 D 触发 器 是 我 们 所 需 的 
唯一 的 基本 构件 。D 锁 存 器 包含 两 个 输入 和 两 个 输出 。 两 个 输入 中 一 个 是 要 存储 的 数据 (D)， 
一 个 是 时 钟 信号 ( C)， 时 钟 信号 用 来 指示 锁 存 器 何 时 读 取 输入 D 的 值 并 进行 存储 。 输 出 信号 
就 是 内 部 状态 如 及 其 反 相 信和 号 互 的 值 。 当 输入 时 钟 C 有 效 时 ， 称 为 锁 存 器 打开 状态 ， 此 时 
输出 信号 @ 的 值 变 为 输入 信号 D 的 值 。 当 时 钟 输 入 C 无 效 时 ， 锁 存 器 处 于 关闭 状态 ， 此 时 
输出 2 的 值 等 于 锁 存 器 最 后 一 次 打开 时 所 存储 的 数据 值 。 
图 A-8-2 显示 了 如 何在 交叉 耦合 的 或 非 门 上 增加 两 个 额外 的 门 来 构造 D 锁 存 器 。 由 于 当 
锁 存 器 处 于 打开 状态 时 ， 输 出 2 的 值 随 输 入 万 的 改变 而 变化 ， 因 此 这 种 结构 有 时 也 称 为 进 明 
锁 存 器 。 图 A-8-3 显示 了 D 锁 存 器 是 如 何 工作 的 ， 图 中 假设 输出 2 初始 为 假 ， 并 且 D 先 改变 。 




















图 A-8-2 ”用 或 非 门 实现 的 D 锁 存 器 。 如 果 其 他 的 输入 为 0， 则 或 非 门 作为 反 相 器 使 用 。 因 此 ， 交 又 看 
合 的 或 非 门 存储 状态 值 ， 直 到 时 钟 输入 C 变 为 有 效 。 此 时 ,输入 忆 将 替代 2 并 被 存储 。 时 
钟 信号 C 由 有 效 变 为 无 效 时 ， 输 入 信号 必须 保证 稳定 


名 “ 原 书 为 “ 拉 低 ”， 应 为 笔 误 。 一 一 译 者 注 
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Q 
图 A-8-3 D 锁 存 器 的 操作 ， 假 设 输出 信号 初始 为 无 效 。 当 时 钟 C 有 效 时 ， 锁 存 器 被 打 


开 , 输出 信号 8 的 值 立即 变 为 输入 D 的 值 


正如 前 面 提 到 的 那样 ， 我 们 使 用 触发 器 作为 基本 构造 单元 ， 而 不 是 使 用 锁 存 器 。 触 发 器 
不 是 透明 的 ; 其 输出 只 在 时 钟 边 沿 发 生变 化 。 触 发 器 可 以 设计 成 在 时 钟 上 升 沿 或 下 降 沿 触 发 ， 
在 本 书 的 设计 中 我 们 可 以 使 用 任意 一 种 类 型 。 图 A-8-4 显示 了 如 何 用 一 对 D 锁 存 器 来 构造 下 
降 沿 触发 的 D 触发 器 。 在 D 触发 器 中 ， 输 出 在 时 钟 边沿 存储 。 图 A-8-5 显示 了 这 个 D 触发 
器 是 如 何 操作 的 。 


图 A-8-4 


图 A-8-5 








下 降 沿 触发 的 D 触发 器 。 当 输入 时 钟 C 有 效 时 ， 第 一 个 锁 存 器 〈 称 为 主 锁 存 器 ) 打开 ， 接 
受 输入 数据 D。 当 输入 时 钟 C 变 低 时 ， 主 锁 存 器 关闭 ， 但 第 二 个 锁 存 器 〈 称 为 从 锁 存 器 ) 打 
开 ， 并 从 主 锁 存 器 的 输出 获取 输入 值 





D 





C 





Q 
下 降 沿 触发 的 D 触发 器 的 操作 ， 假 设 其 输出 初始 为 无 效 。 当 时 钟 输入 C 从 有 效 变 为 无 效 时 ， 输 
出 存储 输入 信号 D 的 值 。 与 图 A-8-3 中 的 时 钟 控制 的 D 锁 存 器 做 比较 。 在 带 时 钟 的 锁 存 器 
中 ， 只 要 时 钟 C 为 高 电 平 ， 存 储 的 数据 和 输出 D 就 发 生变 化 ， 与 仅 在 C 翻转 时 才 发 生变 化 相反 


下 面 是 一 个 上 升 沿 触发 的 D 触发 器 的 Verilog 代码 ， 假 设 C 为 时 钟 输入 , D 为 数据 输入 。 


module DFF(clock,D,0,Qbar); 


input clock, D; 
output reg 0; // 0 is a reg since it is assigned in an 


always block 


output Qbar; 
assign Qbar= ~ Q; // Qbar is always just the inverse 


of 0 


always @(posedge clock) // perform actions whenever the 


clock rises 


0=D; 


endmodule 


由 于 输入 了 D 在 时 钟 边沿 被 采样 ， 因 此 在 时 钟 边沿 前 后 一 段 时 间 内 ,DD 必须 保持 有 效 。 
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在 时 钟 边沿 前 ,输入 信号 必须 保持 有 效 的 最 短 时 间 ， 称 为 建立 时 间 
(setup time) ; 在 时 钟 边沿 后 ， 输 入 信号 必须 保持 有 效 的 最 短 时 间 ， 
称 为 保持 时 间 ( hold time)。 因 此 ， 任 何 触发 器 (或 任何 由 触发 器 构 
造 的 结构 ) 的 输入 必须 在 一 个 时 间 窗 口内 保持 有 效 ， 这 个 时 间 窗 口 
开始 于 时 钟 边 沿 前 的 ke 时 间 ， 结 束 于 时 钟 边沿 后 的 aaa 时间， 如 
图 A-8-6 所 示 。A.11 节 中 将 更 详细 地 介绍 时 钟 和 时 序 约束 ， 包 括 触 
发 器 的 传输 延 时 。 

我 们 可 以 使 用 D 触发 器 的 阵列 来 构建 一 个 寄存 器 。 寄 存 器 可 以 存储 多 位 数据 ， 比 如 一 个 
字 节 或 一 个 字 。 在 第 4 章 中 ,我 们 在 数据 通路 中 使 用 了 寄存 器 。 


建立 时 间 : 在 时 钟 发 生 跳 
变 前 ， 输 入 信号 必须 保持 
有 效 的 最 短 时 间 。 





保持 时 间 : 在 时 钟 发 生 跳 
变 后 ， 输 入 信号 需要 保持 
有 效 的 最 短 时 间 。 











D 
建立 时 间 -保持 时 间 | 


人 

c 

图 A-8-6 下 降 沿 触发 的 D 触发 器 的 建立 时 间 和 保持 时 间 。 输 入 信号 在 时 钟 跳 变 前 后 的 一 段 时 间 内 保 
持 有 效 。 时 钟 跳 变 前 ， 输 入 信号 需要 保持 有 效 的 最 短 时 间 称 为 建立 时 间 ; 时 钟 跳 变 后 ， 输 入 
信号 需要 保持 有 效 的 最 短 时 间 称 为 保持 时 间 。 如 果 违 反 了 最 小 建立 时 间 和 最 小 保持 时 间 的 
要 求 ， 那 么 触发 器 的 输出 可 能 变 得 不 可 预测 ， 如 A.11 节 中 将 要 描述 的 。 保 持 时 间 要 么 为 0， 
要 么 是 一 个 很 小 的 值 ， 因 此 不 需要 担心 建立 时 间 


A.8.2 寄存 器 文件 


寄存 器 文件 是 数据 通路 中 一 个 重要 的 核心 结构 。 寄 存 器 文件 包含 一 组 可 读 写 的 寄存 器 
通过 寄存 器 号 访问 。 通 过 一 个 由 D 触发 器 构成 的 寄存 器 阵列 ， 并 对 每 一 个 输入 或 输出 端口 添 
加 译 码 器 ， 就 可 以 实现 寄存 器 文件 。 由 于 读 寄存 器 不 会 改变 任何 状态 ， 因 此 我 们 只 需 提供 寄 
存 器 号 作为 输入 ， 输 出 为 该 寄存 器 号 对 应 寄存 器 中 的 数据 。 对 于 写 操作 ， 我 们 需要 三 个 输 
和信 : 寄存 器 号 、 要 写 人 的 数据 和 一 个 控制 写 入 的 时 钟 。 第 4 章 中 ,我 们 使 用 了 一 个 包含 两 个 
读 端 口 和 一 个 写 端口 的 寄存 器 文件 。 该 寄存 器 文件 如 图 A-8-7 所 示 。 其 中 读 端口 可 以 通过 一 
对 多 路 选择 器 来 实现 ， 每 一 个 多 路 选择 器 的 位 宽 与 寄存 器 文件 中 每 个 寄存 器 的 位 宽 相 等 。 
图 A-8-8 给 出 了 一 个 64 位 宽 寄 存 器 文件 两 个 读 端口 的 实现 方法 。 





Read register 
number1 


Read register 


图 A-8-7 一 个 包含 两 个 读 端口 和 一 
个 写 端口 的 寄存 器 文件 ， 
该 寄存 器 文件 包含 5 个 输 
入 和 2 个 输出 。 写 控制 信 
号 (Write) 用 灰色 表示 





实现 寄存 器 写 端 口 稍 复杂 一 点 ， 因 为 我 们 只 能 更 改 指 定 寄 存 器 的 内 容 。 为 了 达到 这 个 目 
的 ， 可 以 使 用 译 码 器 来 生成 一 个 信号 ， 用 该 信号 来 决定 要 对 哪个 寄存 器 进行 写 操作 。 图 A-8-9 
显示 了 如 何 实现 寄存 器 文件 的 写 端口 。 需 要 注意 的 是 ， 触 发 器 的 状态 只 在 时 钟 边 沿 发 生变 化 。 
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在 第 4 章 中 ,我 们 明确 地 为 寄存 器 文件 连接 了 写 信号 ， 并 假设 图 A-8-9 中 的 时 钟 是 隐 含 连接 的 。 
如 果 在 一 个 时 钟 周 期 中 ， 对 寄存 器 同时 进行 读 和 写 ， 将 会 发 生 什么 ?因为 写 寄存 器 文件 
出 现在 时 钟 边沿 ， 因 此 在 读 操作 时 ， 寄 存 器 是 有 效 的 ， 正 如 图 A-7-2 中 所 示 。 读 出 的 数据 将 ”[A-53 
是 上 一 个 时 钟 周 期 写 人 的 数据 。 如 果 我 们 想 要 读 出 当前 正在 写 人 的 数据 ， 则 需要 在 寄存 器 文 
件 内 部 或 外 部 添加 额外 的 逻辑 。 第 4 章 广泛 使 用 了 这 类 寄存 器 。 














Read register 
number 1 


EE 
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Read data 1 


Read register 
number 2 








Read data 2 











图 A-8-8 寄存 器 文件 ( 含 n 个 寄存 器 ) 的 两 个 读 端口 ， 可 以 通过 一 对 n 选 1 多 路 选择 器 (每 个 64 位 宽 ) 
来 实现 。 寄 存 器 数据 读 信号 用 来 作为 多 路 选择 器 的 选择 信号 。 图 A-8-9 显示 了 如 何 实现 写 端口 


C 
Register 0 
D 
C 
Register 1 
D 
C 
Register n—2 
D 
C 
Register n—1 
D 


图 A-8-9 寄存 器 文件 的 写 端口 通过 一 个 译 码 器 来 实现 ， 译 码 器 与 写 控制 信号 一 起 生成 信号 C 并 输入 
到 寄存 器 中 。 所 有 三 个 输入 (寄存 器 号 、 数 据 、 写 控制 信号 ) 都 存在 建立 时 间 和 保持 时 间 的 
约束 ， 以 保证 正确 的 数据 被 写 到 寄存 器 文件 中 


Write 





Register number 








Register data 
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A.8.3 用 Verilog 描述 时 序 逻 辑 


Verilog 来 描述 时 序 逻 辑 时 ， 我 们 必须 理解 如 何 生 成 时 钟 ， 如 何 描述 何 时 将 数据 写 人 
寄存 器 中 ， 及 如 何 指定 时 序 控制 。 我 们 先 来 描述 时 钟 。 时 钟 并 不 是 Verilog 中 预定 义 的 对 象 ， 
我 们 可 以 在 一 条 语句 前 使 用 符号 各 来 生成 时 钟 ， 这 将 导致 该 语句 在 n 个 模拟 时 间 单 位 之 后 
被 执行 。 在 大 多 数 Verilog 模拟 器 中 ， 也 可 以 产生 一 个 时 钟 作为 外 部 输入 ， 人 允许 用 户 在 模拟 
过 程 中 ， 指 定 需 要 模拟 器 运行 的 时 钟 周期 数 。 














二 





图 A-8-10 中 的 代码 实现 了 一 个 简单 的 时 钟 ， 该 ok 1/ clock is a register 
时 钟 的 高 电 平 和 低 电 平 都 保持 一 个 模拟 时 间 单元 ，| 加 clock = 1; 机 clock = 0: 
之 后 翻转 状态 。 我 们 使 用 了 延迟 和 阻塞 赋值 语句 来 
实现 时 钟 。 

接 下 来 ,我们 定义 边沿 触发 寄存 器 的 操作 。 在 Verilog 中 ， 这 是 通过 使 用 always 块 的 敏 
感 信号 列表 实现 的 ， 并 分 别 使 用 posedge 或 negedge 来 指定 是 上 升 沿 触发 还 是 下 降 沿 触发 。 
因此 ， 下 面 的 Verilog 代码 中 ， 在 时 钟 上 升 沿 ， 寄 存 器 A 被 写 人 值 b。 

通过 本 章 内 容 及 第 4 章 的 Verilog 部 分 ， 我 们 将 给 出 一 个 上 升 沿 触 发 的 设计 。 图 A-8-11 
显示 了 一 个 LEGv8 寄存 器 文件 的 Verilog 代码 ， 代 码 中 包含 了 两 次 读 操作 和 一 次 写 操作 ， 其 
中 只 有 写 操作 是 受 时 钟 控制 的 。 





图 A-8-10 ”时钟 定义 








reg [63:0] A; 
wire [63:0] b; 
always @(posedge clock) A “= b; 
module registerfile (Readl,Read2,WriteReg,WriteData,RegWrite, 
Datal ,Data2, clock); 
input [5:0] Readl.Read2,WriteReg; // the register numbers 
to read or write 
input [63:0] WriteData; // data to write 
input RegWrite, // the write control 
Clock; // the clock to trigger write 
output [63:0] Datal, Data2; // the register values read 
reg [63:0] RF [31:0]; // 32 registers each 32 bits long 
assign Datal = RF[Readl]; 
assign Data2 = RF[Read2]; 
always begin 
// write the register with new value if Regwrite is 
high 
@(posedge clock) if (RegWrite) RF[WriteReg] “= 
WriteData; 
end 
endmodule 











图 A-8-11 用 行为 级 Verilog 描述 的 LEGv8 寄存 器 文件 。 该 寄存 器 文件 在 时 钟 上 
升 沿 进行 写 操作 
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A.9 存储 元 件 : SRAM 和 DRAM 

寄存 器 和 寄存 器 文件 可 以 作为 基本 单元 来 构造 小 容量 存储 器 。 但 大 容量 存储 器 由 SRAM 
(静态 随机 访问 存储 器 ) 或 是 DRAM (动态 随机 访问 存储 器 ) 来 构建 。 我 们 首先 讨论 比较 简单 
的 SRAM， 然 后 介绍 DRAM。 


A.9.1 SRAM 


SRAM 是 很 简单 的 集成 电路 ， 由 存储 阵列 构成 ， 通 常 包含 一 个 | SRAM ，_ 入 存储 器， 类 
访问 端口 ， 该 端口 提供 读 或 写 。SRAM 对 任 一 单元 的 访问 时 间 都 是 | 中 数据 是 静态 存储 的 (如 
固定 的 ， 尽 管 读 操 作 和 写 操作 的 特征 不 同 。 根 据 可 寻 址 单元 的 数量 | 角 发 器 )， 而 不 是 动态 在 储 
和 每 个 可 寻 址 单元 的 位 宽 ，SRAM 芯片 有 特定 的 配置 。 例 如 一 个 “| A 人 
4M x8 的 SRAM， 可 以 提供 4M 的 人口， 每 个 人 口 8 位 宽 。 因 此 有 | ,j、， 吞 位 的 价格 更 高 。 
22 条 地 址 线 ( 4M = 22 )、8 位 宽 的 输出 数据 线 和 8 位 宽 的 输入 数据 

线 。 与 ROM 类 似 ， 可 寻 址 单元 的 数量 通常 称 为 高 度 ， 每 个 可 寻 址 单元 的 位 数 称 为 宽度 。 由 
于 多 种 技术 原因 ， 最 新 最 快 的 SRAM 常常 使 用 较 窗 的 配置 : xl1 和 x4。 图 A-9-1 显示 了 一 
个 2M x16 的 SRAM 的 输入 和 输出 信号 


Address 
Chip select 


Output enable 
Write enable 


ee 图 A-9-1 一 个 32Kx8 的 SRAM， 包含 


21 位 地 址 线 (32K=25) 和 
16 位 数据 输入 线 ，3 条 控制 线 
和 16 位 数据 输出 线 


为 了 启动 读 写 操 作 ， 片 选 信号 ( Chip seleet) 必须 处 于 有 效 状态 。 对 于 读 操作 ， 必 须 激 
活 输出 使 能 信号 ( Output enable)， 该 信号 用 来 控制 被 地 址 选中 的 数据 能 否 驱 动 到 引 脚 上 。 输 
出 使 能 信号 允许 多 个 存储 器 连接 到 单 输出 总 线 上 ， 并 且 用 于 决定 由 哪个 存储 器 来 驱动 总 线 。 
SRAM 读 取 数据 所 需 的 时 间 通 常 被 定义 为 从 输出 使 能 信号 和 地 址 线 有 效 一 直到 数据 输出 为 止 
的 延迟 。2004 年 ， 最 快 的 CMOS 部 件 的 SRAM 的 读 取 时 间 为 2 一 4ns， 但 这 样 的 SRAM 容 
量 较 小 ， 数 据 宽度 较 窗 ， 更 大 部 件 ( 2004 年 时 已 达到 32M 位 数据 以 上 ) 的 SRAM 的 读 取 时 
间 为 8 一 20ns。 过 去 5 年间， 消费 类 产品 和 数码 设备 对 低 功 耗 SRAM 的 需求 极 大 增长 ， 这 
些 SRAM 通常 具有 更 低 的 待机 和 访问 功 耗 ， 但 速度 通常 慢 了 5 ~ 10 倍 。 最 近 ， 类 似 同 步 
DRAM (下 一 节 讨 论 ) 的 同步 SRAM 也 开发 出 来 了 。 

对 于 写 操作 ， 必 须 提 供 待 写 人 的 数据 和 地 址 ， 以 及 写 控制 信号 。 当 写 使 能 信号 ( Write 
enable) 和 片 选 信号 为 真 时 ， 数 据 输 入 线 上 的 值 就 被 写 入 地 址 线 指定 的 存储 单元 。 正 如 DD 触 
发 器 和 D 锁 存 器 ，SRAM 的 地 址 线 和 数据 线 上 的 信号 也 有 建立 时 间 和 保持 时 间 的 要 求 。 同 
时 ， 写 使 能 信号 不 是 时 钟 边沿 触发 的 ， 而 是 有 最 小 宽度 要 求 的 脉冲 。 写 操作 完成 时 间 由 建立 
时 间 、 保 持 时 间 以 及 写 使 能 脉冲 宽度 所 共同 决定 。 


Din[15-0] 











A-57 


























452 惟有 录 A4 





大 容量 SRAM 不 能 通过 构件 寄存 器 文件 的 方式 实现 。 寄 存 器 文件 中 采用 的 32-1 多 路 选择 器 
是 切实 可 行 的 ， 但 为 64K x 1 SRAM 采用 64K-1 多 路 选择 器 是 不 切实 际 的 。 大 容量 存储 器 不 采用 多 
路 选择 器 ， 而 是 通过 一 条 共享 的 输出 信号 线 来 完成 ， 该 输出 信号 线 也 称 为 位 线 ， 可 被 存储 阵列 的 
多 个 存储 单元 设置 。 为 了 满足 多 个 存储 单元 驱动 一 条 信号 线 ， 需 要 用 到 三 态 缓冲 器 。 三 态 缓冲 器 
有 两 个 输入 ， 即 数据 信号 和 输出 使 能 信号 ， 还 有 一 个 输出 信号 ， 输 出 信号 有 三 种 状态 ， 分 别 为 有 
效 、 无 效 或 高 阻 。 如 果 输 出 使 能 信号 有 效 ， 那 么 三 态 缓冲 的 输出 为 数据 输入 信和 号 的 值 (无 论 是 否 
有 效 )。 和 否则 ， 其 输出 为 高 阻 态 ， 这 时 将 由 其 他 的 输出 使 能 有 效 的 三 态 缓冲 器 决定 共享 输出 的 值 。 
疼 A-9-2 描述 了 一 个 由 一 组 三 态 缓冲 器 和 。 su 
译 码 后 输入 构成 的 多 路 选择 器 。 该 电路 的 关键 在 Pol 
于 ,任意 时 刻 至 多 允许 一 个 缓冲 器 的 输出 使 能 。“ patao n> ou 
有 效 ; 否则 ， 三 态 缓冲 器 将 会 发 生 输 出 线 竞争 现 
象 。 在 SRAM 中 ， 每 个 存储 单元 通过 使 用 三 态 。 Select1 Enable 
缓冲 器 ， 就 能 实现 存储 单元 对 输出 信号 线 的 共 。 Gi ok 
享 。 采 用 分 布 式 的 三 态 缓冲 器 比 大 规模 集中 式 的 
多 路 选择 器 效率 更 高 。 三 态 缓冲 器 通常 被 合并 到 。 select2 
组 成 SRAM 基本 单元 的 触发 器 中 。 图 A-9-3 描 
述 了 一 个 小 容量 4x2 SRAM 的 实现 ， 其 中 用 到 “Data2 
了 带 有 使 能 输入 的 D 锁 存 器 来 控制 三 态 输出 。 a 
图 A-9-3 中 没 用 到 多 路 选择 器 ， 但 用 到 了 Fete 
-个 非常 大 的 译 码 器 和 大 量 的 字 线 。 例 如 , 在 。 pata3a mou 
一 个 4M x8 的 SRAM 中 ,我 们 需要 22-4M 的 六 
译 码 器 ， 以 及 4M 条 字 线 (用 于 各 触发 器 的 使 eg go 
能 ) ! 为 解决 这 个 问题 ， 大 容量 的 存储 器 被 组 织 


一 个 有 效 。 输 出 使 能 无 效 时 ， 三 态 组 
成 矩形 阵列 ， 并 且 使 用 二 级 译 码 。 图 A-9-4 显 了 
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示 了 一 个 4M x 8 型 SRAM 是 如 何 利 用 二 级 译 码 使 能 有 效 的 三 态 缓冲 驱动 共享 输出 线 
来 实现 的 。 我 们 可 以 看 到 ， 二 级 译 码 对 于 理解 
DRAM 如 何 运作 非常 重要 。 


同步 SRAM ( SSRAM) 和 同步 DRAM ( SDRAM) 近年 来 都 在 发 展 。 同 步 RAM 的 关键 
优点 在 于 其 能 将 存储 阵列 或 存储 行 中 一 系列 顺序 地 址 中 的 数据 以 突 发 (burst) 方式 传输 。 突 
发 传输 要 定义 一 个 起 始 地 址 和 突 发 传输 长 度 。 同 步 RAM 的 速度 优势 在 于 ， 在 突 发 方式 传输 
时 ， 无 需 指定 额外 的 地 址 位 。 但 在 传输 突 发 中 的 连续 位 时 需要 使 用 时 钟 。 突 发 传输 模式 下 ， 
省 去 指定 地 址 的 开销 将 大 大 增加 数据 块 的 传输 速率 。 正 因为 这 个 优点 ， 同 步 SRAM 和 同步 
DRAM 迅速 成 为 计算 机 内 存 系统 的 首选 RAM。 下 一 节 和 第 5 章 中 将 更 详细 地 讨论 存储 系统 
中 同步 DRAM 的 使 用 。 


A.9.2 DRAM 


在 静态 RAM ( SRAM) 中 ， 一 个 单元 中 的 数据 保存 在 一 对 反 相 门 电路 中 ， 只 要 持续 供 
电 ， 数 据 就 可 以 一 直 保持 下 去 。 而 在 动态 RAM (DRAM) 中 ,一 个 单元 中 的 数据 是 以 电荷 
量 的 形式 被 保存 在 电容 中 ， 通 过 一 个 晶体 管 来 访问 存储 的 电荷 ， 即 读 取 值 或 者 重 写 存储 的 电 
荷 。 由 于 动态 RAM 中 ， 每 一 位 存储 位 只 使 用 一 个 晶体 管 ， 因 此 其 密度 更 高 ， 单 位 价格 更 低 。 
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相 比 而 言 ，SRAM 每 位 需要 4 ~ 6 个 晶体 管 。 由 于 DRAM 将 电荷 存储 在 电容 中 ， 因 此 不 能 
永久 保存 ， 需 要 不 断 地 刷新 。 这 就 是 该 存储 结构 称 作 动态 的 原因 ， 与 SRAM 单元 的 静态 存储 
相反 。 

为 了 进行 刷新 ， 我 们 需要 读 出 该 内 容 并 且 回 写 到 原单 元 中 。 电 荷 量 通常 能 维持 几 毫 秒 ， 
可 能 相当 于 近 100 万 个 时 钟 周期 。 目 前 ， 单 芯片 存储 控制 器 通常 能 独立 于 处 理 器 完成 刷新 功 
能 。 如 果 DRAM 的 每 一 位 都 要 单独 读 出 并 回 写 ， 那么 对 于 包含 几 兆 字 节 的 大 容量 存储 器 ， 
我 们 必须 持续 刷新 DRAM， 而 没有 时 间 对 数据 进行 存 取 。 幸 好 DRAM 中 也 采用 了 二 级 译 码 
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Dout[1] Dout[o] 
图 A-9-3 4x2 SRAM 的 基本 结构 ， 其 中 译 码 器 用 以 选择 哪 一 对 单元 有 效 。 被 激活 的 单元 采用 三 态 输出 连 
接 到 垂直 位 线 (提供 所 要 求 的 数据 ) 上 。 单 元 地 址 信息 则 通过 水 平地 址 线 中 的 某 一 条 ( 称 为 字 
线 ) 来 传送 。 为 简单 起 见 ， 此 处 省 略 了 输出 使 能 信 叶 和 片 选 信号 ， 但 可 以 简单 地 通过 与 门 加 入 
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结构 ， 这 就 可 以 在 读 周期 内 刷新 一 整 行 (一 行 共享 一 条 字 线 )。 读 周期 后 紧 跟 一 个 写 周 期 。 通 
常 ， 刷新 工作 只 占 了 DRAM 1% ~ 2% 的 活跃 周期 ， 剩 下 98% 一 99% 的 时 间 可 以 用 来 处 理 
数据 的 读 写 。 


























Dout7 Dout6 Dout5 Dout4 Dout3 Dout2 Douti Dout0 


图 A-9-4 4M x8 SRAM 的 典型 组 织 结构 ( 4K x 1024 阵列 )。 第 一 个 译 码 器 产生 8 个 4K x 1024 阵列 的 
地 址 ， 之 后 的 一 组 多 路 选择 器 从 每 个 1024 位 宽 的 阵列 中 选 出 1 位 。 该 设计 远 比 单 级 译 码 器 
简单 ， 单 级 译 码 器 需要 一 个 庞大 的 译 码 器 或 者 多 路 选择 器 。 实 际 上 ， 现 在 这 个 大 小 的 SRAM 
可 能 使 用 更 多 数量 的 模块 ， 并 且 每 一 块 都 会 更 小 


爽身 动态 RAM 如 何 读 / 写 单元 中 存储 
的 信息 ? 单元 内 的 晶体 管 实际 是 一 个 开关 ， 称 
为 传输 晶体 管 ， 允 许 存放 在 电容 中 的 电荷 被 访 人 
问 ( 读 或 写 )。 图 A-5-9 显示 了 单 晶体 管 存储 
单元 的 外 观 。 传 输 晶 体 管 的 作用 类 似 于 开关 : 省 
当 字 线 上 的 信号 有 效 时 ， 开 关 关闭 ， 将 电容 连 Vy 
到 位 线 上 。 如 果 是 写 操作 ， 待 写 的 数据 就 被 放 
到 位 线 上 。 如 果 值 为 1， 则 电容 被 充电 ; 否则 企 村 
电容 放电 。 由 于 DRAM 必须 能 检测 到 电容 中 图 A-9-5 单 品 体 管 实现 的 DRAM 单 元， 包含 
很 少 的 电量 ， 所 以 读 操作 略为 复杂 。 通 常 ， 在 一 个 用 于 存储 单元 内 容 的 电容 ， 以 肌 
激活 字 线 准备 读 出 数据 前 ， 位 线 先 被 充电 到 一 放生 的 不 作 区 
半 状 态 。 然 后 ， 通 过 激活 字 线 ， 电 容 上 的 电荷 可 被 读 出 到 位 线 。 这 导致 位 线 稍微 向 高 电 平 或 
低 电 平方 向 移动 ， 并 且 这 种 变化 能 通过 灵敏 放大 器 (能 够 检测 电 平 上 很 小 的 变化 ) 进行 检测 。 
DRAM 有 一 个 二 级 译 码 器 ， 包 含 一 个 行 访问 和 一 个 列 访问 ， 如 图 A-9-6 所 示 。 其 中 行 访 
问 选中 一 行 ， 并 激活 对 应 的 字 线 。 被 激活 的 行 中 所 有 列 的 内 容 被 保存 到 一 组 锁 存 器 中 。 然 后 ， 
列 访问 从 列 锁 存 器 中 选取 相应 的 数据 。 为 了 节省 引 脚 并 进一步 减少 封装 开销 ， 行 地 址 / 列 地 址 
将 共享 地 址 线 。 由 一 对 信号 线 RAS ( Row Access Strobe， 行 访问 选 通 脉冲 ) 和 CAS ( Column 
Access Strobe， 列 访问 选 通 脉冲 ) 来 表明 是 行 还 是 列 地 址 。 刷 新 过 程 只 是 简单 地 将 列 信息 读 入 
列 锁 存 器 ， 然 后 再 写 回 相同 的 值 。 因 此 ， 一 个 周期 之 内 就 可 以 刷新 一 整 行 。 二 级 寻 址 方法 再 加 
上 中 间 转 换 电路 ， 导 致 DRAM 的 访问 时 间 比 SRAM 的 访问 时 间 长 很 多 (5 ~ 10 倍 )。2004 年 ， 
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典型 的 DRAM 访问 时 间 为 45 ~ 65ns，256Mb 的 DRAM 已 量 产 ，2004 年 第 一 季度 第 一 个 1GB 
的 DRAM 样品 也 生产 出 来 了 。 单位 比特 更 低 的 成 本 使 得 DRAM 成 为 主 存 的 首选 ， 而 更 快 的 访 


问 时 间 使 得 SRAM 成 为 cache 的 首选 。 
array 
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Dout 

图 A-9-6 用 2048 x 2048 阵列 组 成 4M x 1 DRAM。 行 访问 采用 11 位 选择 一 行 ， 然 后 锁 存 到 2048 个 1 
位 锁 存 器 中 。 多 路 选择 器 从 2048 个 锁 存 器 中 选择 输出 。RAS 和 CAS 信号 则 分 别 控制 地 址 
线 是 送 给 行 译 码 器 还 是 列 多 路 选择 器 


你 可 能 会 注意 到 ，64M x4 的 DRAM 在 每 次 行 访问 时 ， 实 际 能 访问 8K 位 ， 然 后 在 列 
访问 时 就 丢弃 了 几乎 所 有 位 ， 只 剩 下 4 位 。DRAM 设计 者 早已 使 用 DRAM 的 内 部 结构 ， 从 
DRAM 中 提供 更 宽 的 带宽 。 这 通过 人 允许 列 地 址 变化 而 行 地 址 不 变 实现 ， 这 导致 对 列 锁 存 器 
中 其 他 位 的 访问 。 为 了 使 这 个 过 程 更 快 更 精确 ， 地 址 输入 被 时 钟 控制 ， 这 样 便 产 生 了 目前 
DRAM 的 主要 使 用 形式 : 同步 DRAM 或 称 为 SDRAM。 

1999 年 以 来 ，SDRAM 成 为 大 多 数 基 于 cache 的 主 存 系统 的 首选 存储 芯片 。SDRAMS 
通过 在 时 钟 信号 的 控制 下 顺序 传送 突 发 传输 中 的 所 有 位 ， 提 供 对 行内 的 一 系列 位 的 快速 访 
问 。2004 年 ， DDRRAM ( Double Data Rate RAM， 双 倍数 据 传输 率 RAM) 是 使 用 最 多 的 
SDRAM 类 型 。DDRRAM 之 所 以 称 为 双 倍 数据 传输 率 ， 是 因为 在 外 部 时 钟 的 上 升 沿 和 下 降 
沿 都 能 传输 数据 。 如 第 5 章 所 讨论 的 ， 这 些 高 速 传 输 可 用 于 提高 主 存储 器 中 可 用 的 带宽 ， 以 
满足 处 理 器 和 高 速 缓存 的 需要 。 


A.9.3 纠 错 


因为 在 大 容量 存储 器 中 可 能 发 生 数据 损坏 的 情况 ， 故 而 大 多 数 计算 机 系统 都 会 采用 各 
种 校 验 码 来 检测 可 能 的 数据 错误 。 一 种 简单 并 且 常 用 的 校 验 码 是 奇偶 校 验 码 。 在 奇偶 校 验 码 
中 ,数据 中 1 的 个 数 为 奇数 ， 则 属于 奇 校 验 ， 否 则 属于 偶 校 验 。 当 数据 往 内 存 写 人 时 ， 校 验 
位 也 被 写 人 〈 奇 校 验 1， 偶 校 验 0 )。 当 数据 被 读 出 时 ， 校 验 位 也 被 读 出 并 校 验 。 如 果 所 存储 
的 数据 的 奇偶 性 和 读 出 的 校 验 位 不 一 致 时 ， 说 明 数 据 出 错 - 

1 位 奇偶 校 验 能 检测 出 最 多 1 位 错 。 如 果 有 2 位 错 ， 那么 1 位 校 验 法 就 可 能 无 法 检测 到 
错误 ， 因 为 校 验 位 正好 会 与 两 个 错误 匹配 。( 实 际 上 ，1 位 校 验 法 能 测 出 任何 奇数 位 错 。 但 3 
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位 错 的 概率 要 比 2 位 错 的 概率 小 得 多 ， 所 以 1 位 校 验 码 通常 只 用 来 ”| 检 和 错 码 : 能 够 检查 教 据 是 
检测 1 位 错 -) 当然 ， 奇 偶 校 验 无 法 判断 数据 中 哪 位 出 错 。 否 出 错 ， 但 无 法 确定 错误 

1 位 奇偶 校 验 是 一 种 检 错 码 (error detection code)。 而 纠 错 码 | 位置 并 村 正 错误 的 校 验 码 。 
(Error Correction Code，ECC) 既 能 检测 错误 ， 还 能 对 错误 进行 纠正 。 对 于 大 容量 主 存 ， 许 
多 系统 采用 的 纠 错 码 不 仅 能 检测 到 2 位 以 内 出 错 的 情况 ， 并 且 还 能 纠正 1 位 错 。 这 些 校 验 
码 使 用 更 多 的 位 来 编码 数据 ， 例 如 ， 主 存 采用 的 典型 的 编码 每 128 位 数据 需要 7 或 8 位 校 
验 码 。 

丑角 1 位 奇偶 校 验 码 是 距离 为 2 的 编码 方法 ， 这 就 是 说 ， 对 于 数据 和 校 验 位 而 言 ， 任 
何 1 位 数字 的 改变 都 会 被 检测 出 该 数据 出 错 。 例 如 ， 当 改变 某 个 数据 位 时 ， 校 验 位 就 出 错 ; 
反之 亦 然 。 当 然 ， 如 果 我 们 同时 改变 两 位 (2 个 数据 位 ,或 1 个 数据 位 和 1 个 校 验 位 )， 那 么 
校 验 位 同 数据 依旧 匹配 ， 也 就 无 法 检测 出 错误 了 。 因 此 ， 在 奇偶 校 验 和 数据 的 合法 组 合 间 ， 
距离 为 2。 

为 了 能 检测 出 多 于 1 个 的 错误 或 纠正 1 个 错误 ,我们 需要 距离 为 3 的 校 验 码 。 也 就 是 
说 ， 纠 错 码 和 数据 位 的 任何 组 合 至 少 需要 有 3 位 与 其 他 组 合 不 同 。 假 设 存在 这 样 的 校 验 码 ， 
并 且 数 据 中 有 1 位 出 错 。 这 时 ， 校 验 码 加 上 数据 就 有 1 位 和 合法 组 合 不 同 ， 我 们 就 能 检测 到 
并 纠正 ， 如果 有 两 位 出 错 ， 我 们 能 检测 到 错误 的 发 生 ， 但 无 法 纠正 。 下 面 参 考 一 个 例子 ， 表 
中 为 一 个 4 位 数据 项 数据 字 和 距离 为 3 的 纠 错 码 。 















































0000 000 | i000 111 
0001 011 1001 100 
0010 401 1010 010 i 
0011 110 1011 0901 
0100 110 1100 001 
后 01o1 101 A101 010 
0110 O11 1110 100 
0111 区 000 1111 111 











为 了 说 明 校 验 过 程 ， 我 们 不 妨 选择 一 个 数据 为 例 。 如 0110， 其 纠 错 码 是 011。 该 数据 发 
生 一 位 错 的 情况 有 4 种 : 1110，0010，0100，0111。 下 面 观察 具有 相同 校 验 码 011 的 数据 项 ， 
即 数据 0001 所 在 的 表 项 。 如 果 纠 错 译 码 器 收 到 某 个 含有 1 位 错 的 数据 (四 个 可 能 错误 的 数据 
之 一 )， 那 么 需要 选择 纠正 为 0110 或 是 0001。 这 四 个 错误 的 数据 和 正确 的 0110 只 有 1 位 不 同 ， 
每 个 相对 于 0001 有 2 位 不 同 。 因 此 ， 该 校 验 码 可 以 很 容易 地 选择 纠正 为 0110， 因 为 1 位 错 的 
概率 高 得 多 。 考 察 2 位 错 能 被 检测 出 来 的 情况 ， 注 意 两 位 错 的 所 有 组 合 都 有 不 同 的 编码 。 重 用 
相同 编码 ， 码 字 中 要 有 3 位 不 同 。 如 果 纠 正 2 位 错误 ， 就 会 得 到 错误 的 结果 ， 因 为 该 纠正 机 制 
将 假设 仅 产生 了 1 位 错 。 如 果 我 们 希望 纠正 1 位 错 ， 并 检测 2 位 错 ， 那 么 需要 一 个 距离 为 4 的 
校 验 码 。 

虽然 我 们 将 数据 和 校 验 码 区 分 了 出 来 ， 但 事实 上 ， 纠 错 码 把 编码 和 数据 看 作 一 个 更 长 的 
字 (例子 中 是 7 位 )。 因 此 ,编码 和 数据 中 的 错误 是 被 等 同 对待 的 。 

尽管 上 例 中 的 于 位 数据 需 叶 -1 工 位 校 验 码 ， 但 随 着 数据 倍数 的 增加 ， 校 验 的 位 数 增长 较 
慢 。 例 如 ， 在 距离 为 3 的 校 验 码 中 ，64 位 数据 只 需 7 位 校 验 码 ，128 位 数据 只 需 8 位 校 验 码 
就 能 实现 。 这 种 校 验 码 叫 汉 明 码 ， 以 RR. Hamming 命名 ， 他 首先 提出 了 该 校 验 码 的 编码 方法 。 
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A.10 有 限 状 态 机 有 限 状态 机 : 一 个 包 合 一 
， 组 输入 和 输出 、 一 个 下 一 

数字 逻辑 电路 可 分 为 组 合 逻辑 电路 和 时 序 逻 辑 电路 。 时 序 系 统 “| 区 态 画 数 (将 当前 状态 和 

的 状态 存放 在 存储 器 中 ， 其 行为 不 仅 依赖 于 输入 信号 ， 同 时 也 与 存 | 输入 喘 射 为 一 个 新 状态 )、 

储 器 中 的 内 容 和 系统 状态 有 关 - 因此 ， 时 序 系统 无 法 用 真 值 表 加 以 人 

描述 ， 而 可 以 用 有 限 状态 机 (finite-state machine， 也 称 为 状态 机 ) 帮 注 将 关机 的 时 序 逮 辑 

来 描述 。 有 限 状态 机 有 一 组 状态 量 和 两 个 函数 ， 称 为 输出 函数 和 下 | 画 数 。 

一 状态 函数 (next-state function)。 状 态 集合 对 应 于 内 部 存储 器 中 所 

有 可 能 的 值 。 因 此 ， 对 于 位 存储 器 ， 有 2 个 状态 量 。 下 一 状态 画 | 下 区 本 本 丽人 生 全 

数 是 一 种 组 合 逻辑 函数 ， 给 定 输入 和 当前 状态 ， 就 能 确定 系统 的 下 。 | 前 状态 确定 有 限 状 态 机 的 

-状态 。 输 出 函数 根据 当前 状态 和 输入 产生 一 组 输出 。 图 A-10-1 是 | 下 一 状态 。 

有 限 状 态 机 的 图 示 。 














图 A-10-1 状态 机 由 包含 状态 的 内 部 存 
储 单元 和 两 个 组 合 逻 辑 函 数 
构成 :下 一 状态 函数 和 输出 
函数 。 通 常 ， 输 出 函数 被 限 
制 为 只 将 当前 状态 作为 输入 ， 
这 样 就 不 会 改变 时 序 机 的 能 
力 ， 但 会 对 内 部 造成 影响 


本 节 和 第 4 章 讨论 的 状态 机 都 是 同步 的 。 也 就 是 说 ， 状 态 随时 钟 周 期 变化 ， 并 且 每 个 时 
钟 周期 都 会 计算 新 状态 。 因 此 ， 状 态 元 件 仅 在 时 钟 边沿 更 新 。 本 节 和 整个 第 4 章 都 使 用 了 该 
方法 ， 但 我 们 通常 不 显 式 地 显示 出 时 钟 。 在 第 4 章 中 ,我 们 使 用 了 状态 机 来 控制 处 理 器 的 执 
行 以 及 数据 通路 的 操作 。 

为 了 说 明 有 限 状 态 机 如 何 操作 和 设计 ， 我 们 引用 简单 经 典 的 “交通 灯 ” 实 例 加 以 说 明 
(第 4、5 章 的 例子 中 利用 有 限 状 态 机 来 控制 处 理 器 的 执行 过 程 )。 当 有 限 状态 机 用 作 控 制 器 
时 ， 输 出 函数 通常 被 限制 为 仅仅 依赖 于 当前 状态 。 这 样 的 有 限 状 态 机 称 作 摩尔 机 ( Moore 
machine)。 在 本 书 中 ， 我 们 都 采用 了 这 种 有 限 状态 机 。 如 果 输 出 函数 既 依 赖 于 当前 输入 ， 也 
依赖 于 当前 状态 ， 这 样 的 状态 机 称 为 米利 机 ( Mealy machine)。 这 两 种 状态 机 在 功能 上 是 等 
价 的 ， 二 者 可 以 互相 转化 。 摩 尔 机 的 优点 是 相对 更 快 ， 而 米利 机 则 结构 更 小 ， 因 为 其 比 摩尔 
机 所 需要 的 状态 数 更 少 。 第 5 章 对 其 差别 已 进行 了 更 详细 的 讨论 ， 并 给 出 了 米利 机 的 Verilog 
描述 。 

假设 在 东西 大 道 和 南北 大 街 相交 的 十 字 路 口 有 一 个 交通 灯 需 要 控制 。 为 简单 起 见 ， 这 里 
只 考虑 红 灯 和 绿灯 (练习 题 中 有 加 上 黄 灯 的 逻辑 设计 )。 我 们 希望 每 个 方向 上 灯 切 换 的 周期 
< 30 秒 。 因 此 采用 了 频率 为 0.033Hz 的 时 钟 信 叶 ， 这 样 就 能 保证 机 器 在 状态 间 循 环 的 周期 
< 30 秒 。 其 中 有 两 个 输出 信号 : 

。 NSlite: 当 该 信号 有 效 时 ， 南 北方 向 的 交通 灯 为 绿色 ; 反之 为 红色 。 

® EWlite: 当 该 信号 有 效 时 ， 东 西方 向 的 交通 灯 为 绿色 ， 反 之 为 红色 。 

此 外 ， 还 有 两 个 输入 : 

e NScar: 说 明 有 汽车 在 探测 器 处 ， 该 探测 器 放置 在 南北 向 道路 交通 灯 前 方 的 路 基 上 。 

















A-60| 




















全 





458 奉 录 AA 





e。 EWcar: 说 明 有 汽车 在 探测 器 处 ， 该 探测 器 放置 在 东西 向 道路 交通 灯 前 方 的 路 基 上 。 

只 有 当 其 他 方向 有 汽车 在 等 待 时 ， 交 通 灯 才 会 在 红绿灯 之 间 切 换 ; 否则 ， 交 通 灯 的 状态 
保持 为 绿色 ， 直 到 该 方向 上 所 有 汽车 都 顺利 通过 为 止 。 

为 了 实现 这 一 简单 的 交通 灯 ， 我 们 需要 两 个 状态 量 : 

e NSgreen: 南北 方向 的 交通 灯 为 绿色 。 

e EWgreen: 东西 方向 的 交通 灯 为 绿色 。 

下 面 ， 我 们 建立 一 个 下 一 状态 函数 表 : 



























































NSgreen 0 0 NSgreen 
NSgreen 0 1 EWgreen 
NSgreen 家 0 NSgreen 
NSgreen 4 属 汪 大 局 EWgreen 
可 EWgreen 0 ri EWgreen 
EWgreen 0 EWegreen 
EWgreen 4 ss 0 NSgreen 
EWgreen | i | __NSgreen 
注意 ， 我 们 没有 在 算法 中 指定 当 两 个 方向 同时 有 汽车 通行 时 该 怎么 办 。 如 果 出 现 这 样 的 


情况 ， 上 面 的 下 一 状态 函数 需要 进行 修改 ， 以 保证 一 个 方向 的 车 流 不 会 堵塞 另 一 方向 的 交通 。 
然后 ， 有 限 状 态 机 可 通过 指定 输出 函数 完成 。 


9 EST | Ewie | 
Nsgeen | 1 0 |] 














EWgreen | 0 1 | 





在 考察 如 何 实现 这 个 有 限 状 态 机 之 前 ， 我 们 先 来 看 一 个 有 限 状 态 机 的 图 形 表示 。 在 图 解 
中 ， 节 点 表示 状态 ， 节 点 中 放置 的 是 该 状态 下 有 效 的 一 些 输出 。 有 向 弧 用 于 指出 下 一 状态 函 
数值 ， 孤 上 的 标记 指定 输入 作为 逻辑 函数 。 图 A-10-2 给 出 了 该 有 限 状态 机 的 图 形 表示 。 





NSgreen 


EWcar 


EWgreen 


二 


图 A-10-2 ”两 个 状态 的 交通 灯 控 制 器 的 图 形 表示 。 其 中 简化 了 状态 传输 的 逻辑 函数 。 例 如 ， 状 态 表 中 
NSgreen 到 EWgreen 的 转换 是 (NScar * EWcar) + (NScar* EWcar)， 与 EWcar 相等 

有 限 状态 机 可 这 样 实现 : 由 寄存 器 保持 当前 状态 ， 由 组 合 电路 计算 出 下 一 状态 函数 和 输 

出 函数 。 图 A-10-3 描述 了 一 个 状态 为 4 位 ( 16 种 状态 ) 的 有 限 状 态 机 的 框图 。 在 实现 有 限 状 
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态 机 之 前 ， 我 们 先 将 每 个 状态 编号 ， 该 过 程 称 为 状态 分 配 。 例 如 ， 我 们 将 NSgreen 记 为 状态 
0，EWgreen 记 为 状态 1。 状 态 寄存 器 则 只 有 1 位 。 下 一 状态 函数 可 由 以 下 公式 计算 : 
NextState = (CurrentState + EWcar) + (CurrentState * NScar) 
其 中 CurrentState (当前 状态 ) 是 状态 寄存 器 的 内 容 (0 或 1 )。NextState (下 一 状态 ) 是 下 一 
状态 函数 的 输出 ， 将 在 时 钟 周期 结束 时 被 写 和 人 状态 寄存 器 。 输 出 函数 也 很 简单 : 
NSlite = CurrentState 
EWlite = CurrentState 


加 





图 A-10-3 有 限 状态 机 的 实现 ， 包 括 一 
个 状态 寄存 器 用 以 保存 当前 状 
下 一 状 才 态 ， 一 个 组 合 逻辑 用 以 计算 下 
一 状态 和 输出 函数 。 后 两 个 功 
能 通常 采用 两 个 独立 的 逻辑 块 
分 开 实现 ， 这 样 可 能 需要 更 少 
输入 的 门 电路 








组 合 罗 辑 通常 采用 结构 化 的 逻辑 电路 实现 ， 例 如 采用 PLA。PLA 可 以 根据 下 一 状态 表 
和 输出 函数 表 自 动 构建 。CAD ( Computer-Aided Design， 计 算 机 辅助 设计 ) 工具 可 以 将 图 形 
化 或 文本 化 表示 的 有 限 状 态 机 自动 实现 并 优化 为 电路 设计 。 在 第 4、5 章 中 ， 有 限 自 动机 用 
于 控制 处 理 器 的 执行 。 附 录 C 详细 讨论 了 用 PLA 和 ROM 来 实现 这 些 控制 。 

为 了 说 明 如 何 使 用 Verilog 写 出 控制 逻辑 ， 图 A-10-4 给 出 了 一 个 用 于 综合 的 Verilog 版 








module TrafficLite (EWCar.NSCar,EWLite,NSLite.clock); 
input EWCar, NSCar,clock; 
output EWLite,NSLite:; 
reg state; 
initial state=0; //set initial state 
//following two assignments set the output, which is based 
only on the state variable 
assign NSLite = ~ state; //NSLite on if state = 0; 
assign EWLite = state; //EWLite on if state = 1 
always @(posedge clock) // all state updates on a positive 
clock edge 
case (state) 
0: state = EWCar; //change state only if EWCar 
1: state = NSCar: //change state only if NSCar 


endcase 
endmodule 











图 A-10-4 交通 灯 控 制 器 的 Verilog 描述 
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本 。 注 意 ， 对 于 这 个 简单 的 控制 功能 ， 米 利 机 没有 用 处 ， 但 第 5 章 中 为 实现 控制 功能 采用 的 
A-70| 是 米利 机 ， 比 摩尔 机 控制 器 所 需 的 状态 更 少 。 




















A.11 时 序 方法 


本 附录 以 及 本 书 的 剩余 部 分 中 ， 我 们 采用 边沿 触发 的 时 序 方法 >。 边沿 触发 方法 比 电 平 触 
发 方法 更 易于 解释 和 理解 。 本 节 将 对 时 序 方 法 进行 较为 详细 的 阐述 ， 同 时 也 会 介绍 有 关 电 平 

触发 的 内 容 。 本 节 末 将 简单 地 讨论 异步 信号 和 同步 信号 ， 这 是 数字 设计 中 的 一 个 重要 问题 。 

本 节 的 主要 目的 是 介绍 时 序 方 法 的 主要 概念 。 为 了 简化 ， 本 节 做 了 一 些 重要 的 假设 ; 如 
果 你 想 要 进一步 了 解 时 序 方法 ， 可 参阅 附录 末 的 参考 文献 。 

我 们 采用 边沿 触发 方法 是 因为 其 有 两 个 优点 : 易于 描述 ， 应 用 简单 。 如 果 我 们 假设 所 有 
时 钟 都 同时 到 达 ， 那 么 只 要 简单 地 让 时 钟 周期 足够 长 ， 就 能 保证 在 组 合 逻 辑 块 之 间 具 有 边缘 
触发 寄存 器 的 系统 可 以 正确 工作 ， 而 不 会 发 生 竟 争 现象 。 当 状态 元 素 的 内 容 取决 于 不 同 逻 辑 
元 素 的 相对 速度 时 ， 就 会 发 生 竞争 。 

在 边沿 触发 的 电路 设计 中 ， 时 钟 周期 必须 足够 长 ， 这 样 才 能 满足 从 一 个 触发 器 通过 组 合 
逻辑 到 另 一 个 触发 器 的 路 径 ， 满 足 建立 时 间 的 要 求 。 图 A-11-1 描述 了 采用 上 升 沿 触 发 的 系 
统 所 需 的 条 件 。 在 这 种 系统 中 ， 时 钟 周期 必须 至 少 达到 

Tprop 十 fcombinational + fsctup 
三 个 延迟 分 量 的 最 坏 情 况 。 三 个 延迟 分 别 定义 如 下 : 

e tpop 是 信号 通过 触发 器 传输 的 时 间 ， 有 时 也 称 为 clock-to-O。 

teombinational 是 一 个 组 全 逻辑 (两 端 为 两 个 触发 器 ) 的 最 长 延 时 。 

e fnp 是 时 钟 上 升 沿 到 来 前 ， 触 发 器 输入 必须 有 效 的 时 间 。 











D Q| 
Flip-flop 组 合 逻辑 
C 
throp {combinational {etup 


图 A-11-1 在 边沿 触发 的 设计 中 ， 时 钟 周期 必须 足够 长 ， 以 保证 在 下 一 个 时 钟 沿 到 来 之 前 信号 在 要 
求 的 建立 时 间 内 有 效 。 信 号 从 触发 器 输入 端 传输 到 触发 器 输出 端的 时 间 为 ye， 然后 经 过 
A-72 fusional 的 时 间 通过 组 合 逻 辑 ， 并 在 下 一 个 时 钟 沿 到 来 之 前 kewe 时 刻 有 效 


日 ”也 称 时 序 策略 。 一 一 译 者 注 
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下 面 做 一 个 简化 假设 : 保持 时 间 要 求 已 满足 。 在 现代 逻辑 设计 中 ， 保 持 时 间 已 是 几乎 不 
需要 考虑 的 问题 。 

在 边沿 触发 的 设计 中 还 必须 考虑 的 一 个 复杂 问题 是 时 钟 偏 移 
(clock skew)。 时 钟 偏 移 是 指 两 个 状态 单元 看 到 同一 个 时 钟 沿 时 的 绝 
对 时 间 差 。 时 钟 偏 移 产生 的 原因 是 时 钟 信 号 经 常 使 用 两 条 不 同 的 路 
径 到 达 两 个 不 同 的 状态 单元 ， 因 而 延迟 略 有 不 同 。 如 果 时 钟 偏 移 足 
够 大 ， 那 么 一 个 状态 单元 可 能 变化 并 导致 另 一 个 触发 器 的 输入 端 在 第 二 个 触发 器 看 到 时 钟 沿 
之 前 就 发 生 了 改变 。 

图 A-11-2 显示 了 该 问题 ， 其 中 忽略 了 建立 时 间 和 触发 器 的 传输 延迟 。 为 避免 这 种 错误 ， 
可 以 增加 时 钟 周期 以 容忍 最 大 的 时 钟 偏 移 。 因 此 ， 时 钟 周期 至 少 应 大 于 


tprop + {combinational + jsetup + 1skew 


时 钟 偏 斜 : 两 个 状态 单元 
看 到 一 个 时 钟 沿 的 绝对 时 
间 差 。 












时 钟 在 |+A 

时 刻 后 到 达 

图 A-11-2 时 钟 偏 移 如 何 引发 竞争 ， 导 致 错误 的 操作 。 由 于 两 个 触发 器 看 到 时 钟 信号 的 时 刻 存在 差异 ， 
存储 在 第 一 个 触发 器 中 的 信号 可 能 会 向 前 竞争 传输 ， 并 在 时 钟 到 达 第 二 个 触发 器 之 前 改变 
第 二 个 触发 器 的 输入 值 


时 钟 在 1 时 刻 到 达 


有 了 这 一 时 钟 周期 约束 ， 即 使 两 个 时 钟 到 达 的 先后 次 序 颠 倒 ， 即 第 二 个 时 钟 早 到 了 Tuevw， 
电路 依旧 能 正常 工作 。 设 计 人 员 为 减少 时 钟 偏 移 ， 需 要 仔细 布局 时 钟 信 号 ， 将 到 达 时 间 的 差 
异 减 到 最 小 。 另 外 ， 聪 明 的 设计 师 还 提供 了 一 些 余 量 ,使 时 钟 比 最 小 的 时 间 稍 长 一 点 ; 这 多 
许 组 件 和 电源 的 变化 。 由 于 时 钟 偏 移 也 会 影响 保持 时 间 约 束 ， 最 小 化 偏 移 量 是 非常 重要 的 。 

边沿 触发 有 两 个 缺点 : 需要 额外 的 逻辑 电路 ， 有 时 会 更 慢 。 比 较 。 | 电 平 触 发 时 钟 控制 ; 一 种 
D 触发 器 和 电 平 敏感 锁 存 器 ， 我 们 会 发 现 边沿 触发 的 设计 需要 更 多 | 时 序 方法 ， 状 态 变 化 发 生 
的 逻辑 。 另 一 种 方法 是 采用 电 平 敏感 时 钟 ( level-sensitive clocking)。 via 
因为 状态 改变 是 电 平 敏感 的 而 不 是 瞬时 的 ， 电 平 敏感 机 制 要 稍微 复 | 冯 化 的 史 时 发 生 不 同 。 
杂 一 些 ， 并 且 需 要 考虑 更 多 因素 以 使 其 正确 执行 。 


A.11.1 电 平 敏感 时 序 


电 平 敏感 时 序 中 ， 状 态 改变 发 生 在 高 电 平 或 低 电 平 期 间 ， 与 边沿 触发 方法 下 的 瞬时 改 
变 不 同 。 由 于 状态 不 是 瞬时 变化 的 ， 因 此 竞争 现象 很 容易 产生 。 为 了 保证 在 时 钟 足够 慢 的 情 
况 下 ， 电 平 敏感 的 设计 仍 能 正常 工作 ， 设 计 人 员 使 用 了 一 种 双 相 时 钟 。 双 相 时 钟 使 用 了 两 个 
不 相 重叠 的 时 钟 信号 ( @, @; )。 因 此 任 一 给 定时 刻 ， 最 多 只 有 一 个 时 钟 信号 为 高 电 平 ， 如 
图 A-11-3 所 示 。 我 们 可 以 采用 双 相 时 钟 构建 系统 ， 这 样 的 系统 包含 电 平 敏感 的 锁 存 器 ， 但 
没有 竞争 现象 ， 效 果 与 边沿 触发 电路 一 样 。 

设计 这 种 系统 的 一 种 简单 的 方法 是 交替 使 用 在 @ 打开 的 锁 存 器 和 在 2 打开 的 锁 存 器 。 
为 两 个 时 钟 不 是 同时 处 于 有 效 状态 ， 因 此 不 可 能 产生 竞争 。 如 果 组 合 电路 的 输入 为 2， 
那么 其 输出 将 被 B, 时 钟 锁 存 。 当 输入 锁 存 器 关闭 ， 并 因此 输出 有 效 时 ， 其 输出 值 只 能 在 @。 
的 有 效 信号 期 间 开 放 ， 于 是 能 保证 输出 信号 有 效 。 图 A-11-4 显示 了 一 个 具有 双 相 时 序 以 及 
交 蔡 锁 存 器 的 系统 是 如 何 工作 的 。 正 如 边沿 触发 的 设计 中 那样 ， 必 须 注意 时 钟 偏 移 ， 尤 其 是 
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在 两 个 时 钟 相位 之 间 。 通 过 增加 两 个 相位 之 间 非 重 登 的 数量 ， 我 们 可 以 减少 潜在 的 误差 幅 
度 。 因 此 ， 如 果 每 个 相位 足够 长 ， 并 且 相 位 之 间 的 非 重 释 部 分 足够 大 ， 那 么 系统 可 以 保证 正 
确 运 行 。 








图 A-11-4 在 带 交替 锁 存 器 的 双 相 时序 机 制 下 ， 系 统 如 何在 两 个 时 钟 相位 上 运行 。 锁 存 器 的 输出 在 与 
其 输入 C 相反 的 相位 上 是 稳定 的 。 因 此 ， 第 一 个 组 合 逻辑 块 在 mo 期间 有 稳定 的 输入 ， 其 
输出 则 被 B, 锁 存 。 第 二 个 (最 右边 ) 组 合 块 以 相反 的 方式 工作 ，%, 期 间 输入 稳定 。 因 此 ， 
经 过 组 合 块 的 时 延 决 定 了 各 时 钟 必须 有 效 的 最 短 时 间 。 非 重合 时 域 的 长 度 则 由 任意 逻辑 块 
的 最 大 时 钟 偏 移 和 最 小 时 延 决定 


A.11.2 异步 输入 和 同步 器 


通过 使 用 单个 时 钟 或 双 相 时 钟 ， 如 果 能 够 避免 时 钟 偏 移 问题 ， 那 么 就 能 消除 竞争 现象 。 
不 幸 的 是 ， 整 个 系统 仅 使 用 一 个 时 钟 信号 并 且 保 持 很 小 的 时 钟 偏 移 是 不 切实 际 的 。CPU 可 
以 使 用 单个 时 钟 ， 而 IO 设备 可 能 也 会 有 自己 的 时 钟 。 异 步 设备 可 以 通过 一 系列 握手 步骤 与 
CPU 进行 通信 。 为 了 将 异步 输入 信号 转化 为 同步 信号 并 用 于 改变 系统 的 状态 ， 我 们 需要 使 用 
同步 器 。 同 步 器 的 输入 为 异步 信号 和 一 个 时 钟 ， 输 出 信号 与 输入 时 钟 同步 。 

我 们 首先 尝试 使 用 边沿 触发 的 D 触发 器 实现 同步 器 ， 其 中 D 输 入 是 异步 信号 ， 如 
图 A-11-5 所 示 。 由 于 我 们 采用 握手 协议 进行 通信 ， 因 此 在 一 个 时 钟 或 下 一 个 时 钟 是 否 检测 
异步 信号 的 有 效 状态 并 不 重要 ， 因 为 该 信号 会 一 直 保 持 有 效 直到 被 确认 。 因 而 ， 你 可 能 会 认 
为 这 种 简单 的 设计 足以 准确 地 对 信号 进行 采样 ， 除 了 一 个 小 问题 以 外 。 


全 
Flip-ft 
时 钟 C 


图 A-11-5 由 DD 触发 器 构成 的 同步 器 ， 用 于 采样 异步 信号 ， 并 将 产生 和 时 钟 同步 
的 输出 信号 。 该 同步 器 不 能 正常 工作 


该 问题 是 一 种 称 为 亚 稳 态 ( metastability) 的 情况 。 假 设 当 时 钟 
边沿 到 达 时 ， 异 步 信号 在 高 低 电 平 间 振 荡 。 显 然 ， 难 以 判断 信号 是 | 亚 稳 态 : 采样 时 位 号 不 江 
被 锁 存 为 高 电 平 还 是 低 电 平 。 这 个 问题 可 以 克服 。 不 幸 的 是 ， 情 况 wo 
更 精 ， 如 果 被 采样 信号 在 建立 时 间 和 保持 时 间 不 稳定 ,那么 触发 器 | 时政 宁 衬 就 据 落 入 寅 低 电 
可 能 会 进入 亚 稳 态 。 这 种 状态 下 ， 输 出 将 不 具有 合法 的 高 电 平 值 或 “| 平 间 的 不 确定 区 域内 。 
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低 电 平 值 ， 而 是 介 于 二 者 之 间 。 此 外 ， 无 法 保证 触发 器 在 有 限 的 时 | 同步 器 故障 ， 甬 发 器 进入 
间 内 退出 这 种 状态 (稳定 下 来 )。 此 时 ， 一 些 查看 触发 器 输出 的 多 辑 ee 
模块 可 能 看 到 的 输出 是 0， 而 其 他 的 可 能 看 到 的 是 1。 这 种 现象 叫 作 i 
同步 器 故障 (synchronizer failure)。 击发 器 输出 为 1。 

在 纯 同步 系统 中 ， 通 过 确保 满足 输出 器 或 锁 存 器 的 建立 时 间 和 
保持 时 间 约 束 ， 可 以 避免 同步 失败 ， 但 是 当 输入 是 异步 信号 时 会 出 现 例外 。 唯 一 可 能 的 解决 
方案 是 ， 在 查看 触发 器 输出 信号 之 前 ， 等 待 足够 长 的 时 间 以 确保 其 输出 稳定 ， 并 且 如 果 进 入 
的 话 ， 触 发 器 已 退出 亚 稳 态 。 那 究竟 该 等 多 长 时 间 呢 ? 触发 器 处 于 亚 稳 态 的 概率 是 按 指数 级 
衰减 的 ， 因 此 在 较 短 的 时 间 之 后 ， 触 发 器 处 于 亚 稳 态 的 概率 就 非常 低 了 ; 但 永远 不 会 为 0 
因此 ， 设 计 人 员 需 要 等 待 足够 长 的 时 间 才 能 使 同步 失败 的 概率 很 小 ， 而 这 些 失败 的 间隔 可 能 
是 几 年 甚至 几 千 年 。 

对 于 大 多 数 触发 器 的 设计 而 言 ， 经 过 几 个 建立 时 间 后 ， 同 步 失败 的 概率 就 非常 小 了 。 如 
果 时 钟 频 率 比 亚 稳 态 周 期 要 长 (这 种 情况 是 可 能 的 )， 那 么 就 可 以 用 两 个 D 触发 器 来 构造 一 
个 安全 的 同步 器 ， 如 图 A-11-6 所 示 。 有 兴趣 的 读者 可 进一步 阅读 参考 文献 。 
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图 A-11-6 如果 亚 稳 态 的 时 间 小 于 时 钟 周期 ， 该 同步 器 就 可 以 正常 工作 。 尽 管 第 一 个 触发 器 的 输出 可 
能 是 亚 稳 态 ， 但 其 他 任何 逻辑 单元 在 第 二 个 时 钟 之 前 看 木 到 亚 稳 态 。 第 二 个 D 触发 器 在 第 
二 个 时 钟 采样 信号 ， 此 时 第 一 个 触发 器 不 应 青 处 于 亚 稳 态 








A.12 现场 可 编程 器 件 


对 于 全 定制 或 半 定制 芯片 ， 设 计 者 可 以 利用 底层 结构 的 灵活 性 | 现场 可 编程 器 件 ， 一 种 包 
方便 地 实现 组 合 或 时 序 逻 辑 。 对 于 那些 不 想 使 用 全 定制 或 半 定 制 IC | 含 组 合 逮 辑 ， 可 能 也 包含 
的 设计 者 ， 如 何 利 几 高 级 集成 电路 实现 复杂 的 逻辑 设计 呢 ? 全 定制 | 允 汪 和 人 于 
和 半 定制 IC 之 外 实现 时 序 座 辑 和 组 合 记 辑 最 常用 的 是 现场 可 编程 器 
件 ( Field Programmable Device，FPD)。FPD 是 一 种 集成 电路 ， 包 | 可 编程 沁 辑 器 件 ，_ 种 包 
括 的 组 合 逻 辑 和 可 能 的 存储 器 件 可 以 由 使 用 者 配置 。 合 组 合 到 辑 的 集成 电路 ， 

FPD 主要 分 为 两 个 阵营 :可 编程 逻辑 器 件 ( Programmable Logic | 功能 可 由 用 户 配置 。 











A-75 
































464 附录 A 





Device，PLD) 是 纯粹 的 组 合 逻 辑 ; 现场 可 编程 门 陈列 ( Field Pro- 
grammable Gate Array，FPGA) 提供 组 合 罗 辑 和 触发 器 。PLD 由 两 种 
形式 组 成 : 简单 PLD ( Simple PLD，SPLD)， 通 常 是 PLA 或 者 可 编程 
阵列 逻辑 ( Programmable Array Logic，PAL); 复杂 PLD， 包括 多 于 一 
个 的 逻辑 模块 以 及 模块 间 的 可 配置 互 连 线路 。 当 谈 到 PLD 中 的 PLA 
时 ， 通 常 是 指 带 有 用 户 可 编程 与 阵列 和 或 阵列 的 PLA。PAL 类 似 于 
PLA， 但 其 或 阵列 是 固定 的 。 

在 讨论 FPGA 以 前 ， 先 来 看 看 FPD 是 如 何 配置 的 。 配 置 的 主要 
问题 就 是 在 何 处 建立 或 打破 连接 。 门 电路 和 寄存 器 结构 是 静态 的 ， 人 
但 是 连接 是 可 配置 的 。 注 意 ， 通 过 配置 连接 ， 用 户 可 以 决定 实现 何 | 可 关 程 的 性 承 列 组 成 友 可 
种 逻辑 功能 。 考 虑 一 个 可 配置 的 PLA : 通过 决定 与 阵列 和 或 阵列 在 | 编程 理 辑 电路 。 
何 处 连接 ,用户 决定 PLA 实现 什么 样 的 逻辑 功能 。FPD 中 的 连接 可 
以 是 永久 的 ， 也 可 以 是 可 配置 的 。 永 久 连 接 涉及 在 两 个 连 线 之 间 建 


现场 可 编程 门 陈列 : 一 种 
可 配置 的 由 组 合 逻 辑 块 和 
触发 器 构成 的 集成 电路 。 





简单 可 编程 逻辑 器 件 : 包 
含 一 个 可 编程 的 与 阵列 ， 
以 及 一 个 国定 的 或 阵列 





反 熔 丝 : 集成 电路 中 的 一 
种 结构 ， 编 程 时 在 两 条 导 
线 之 间 形 成 永久 连接 


立 或 破坏 连接 。 现 在 的 FPLD 都 使 用 反 熔 丝 (antifuse) 技术 ， 人 允许 
在 编程 时 建立 连接 然后 再 永久 固定 下 来 。 配 置 CMOS FPLD 的 另 一 
种 方法 是 使 用 SRAM。 在 上 电 时 ， 配 置信 息 下 载 到 SRAM 中 ， 这 些 
内 容 控制 开关 设 定 进而 决定 哪些 金属 线 连接 起 来 。FPD 使 用 SRAM | 查 所 表现 场 可 编程 器 
控制 的 好 处 在 于 可 以 通过 修改 SRAM 的 内 容 进 行 重新 配置 。 基 于 | 件 中 单元 的 名 称 ， 因 为 
SRAM 控制 的 两 个 缺点 是 : 配置 信息 是 易 失 的 ， 必 须 在 上 电 时 重新 | 这 些 单元 由 少量 的 逻辑 和 
加 载 ; 用 于 开关 的 有 源 晶体 管 的 使 用 稍微 增加 了 这 种 连接 的 电阻 。 RAM Ms 

FPGA 包含 逻辑 和 存储 器 件 ， 通 常 组 织 为 二 维 阵列 结构 ， 由 通 
道 划分 为 行 、 列 ， 用 于 阵列 单元 间 的 全 局 互 连 。 每 个 单元 是 门 和 触发 器 的 组 合 ， 可 以 编程 执 
行 特定 功能 。 因 为 它们 基本 上 是 小 型 、 可 编程 RAM， 因 此 也 被 称 为 查找 表 ( Lookup Table， 
LUT)。 更 新 的 FPGA 包括 更 复杂 的 构建 模块 ， 例 如 加 法 器 和 用 来 构建 寄存 器 文件 的 RAM 
块 。 一 些 大 型 的 FPGA 甚至 包含 32 位 的 RISC 核 。 

除了 可 以 对 每 个 单元 进行 编程 以 执行 特定 的 功能 外 ， 单 元 间 的 互 连 也 是 可 编程 的 ， 这 
就 使 得 现在 包含 上 百 模 块 和 上 千 门 电路 的 FPGA 可 以 实现 复杂 的 逻辑 功能 。 互 连 是 可 定制 芯 
片 中 最 大 的 挑战 ， 对 于 FPGA 更 是 如 此 ， 因 为 单元 不 代表 结构 化 设计 的 自然 分 解 单元 。 许 多 
FPGA 有 90% 的 面积 用 来 实现 互 连 ， 只 有 10% 是 逻辑 和 存储 模块 。 

正如 你 不 可 能 不 使 用 CAD 工具 来 设计 全 定制 或 半 定 制 芯 片 一 样 ， 你 也 需要 CAD 工具 
来 设计 FPD。 已 经 开发 出 针对 FPGA 的 逻辑 综合 工具 ， 人 允许 从 结构 或 行为 级 的 Verilog 描述 
中 使 用 FPGA 来 生成 一 个 系统 。 


A.13 “本章 小 结 


本 附录 介绍 了 逻辑 设计 的 一 些 基 础 知识 。 在 了 解 了 这 些 内 容 之 后 ， 你 可 以 继续 阅读 第 
4、5 章 。 这 两 章 使 用 了 本 附录 中 讨论 的 概念 和 原理 。 


拓展 阅读 
关于 逻辑 设计 ， 有 很 多 好 书 ， 以 下 列 出 了 其 中 一 些 。 
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Ciletti, M. D. [2002]. Advanced Digital Design with the Verilog HDL Englewood 
Cliffs, NJ: Prentice Hall. 

A thorough book on logic design using Verilog. 

Katz, R. H. [2004]. Modern Logic Design, 2nd ed., Reading, MA: Addison-Wesley. 

A general text on logic design. 
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A.4 


A.S 
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A.13 


练习 题 

[10 ] <A.2 > 除 本 节 中 讨论 的 基本 定律 之 外 ,还 有 两 个 重要 的 定律 ， 称 为 德 ， 摩 根 定律 : 
A+B=4.B 和 4*B=A+B 

请 使 用 下 面 的 真 值 表 对 上 面 的 德 * 摩根 定律 进行 证 明 : 





























0 0 1 1 1 i i 
0 1 1 0 0 0 | 者 3 
1 0 0 1 0 wn |- 六 1 
wn 0 i | 0 











10 ] <A.2> 给 出 一 个 n 输 入 的 逻辑 函数 ， 对 应 的 真 值 表 有 2" 项。 

10] <A.2> 异 或 函数 具有 多 种 用 途 (可 用 于 加 法 器 或 校 验 码 计算 )。 对 于 一 个 二 输入 的 异 或 函 
数 ， 当 且 仅 当 只 有 一 个 输入 为 “ 真 ”时 输出 才 为 “ 真 "。 写 出 一 个 二 输入 异 或 函数 的 真 值 表 ， 
并 用 与 门 、 或 门 和 反 相 器 ( 非 门 ) 实现 该 函数 。 

15 ] <A.2 > 通过 使 用 二 输入 的 或 非 门 实现 与 、 或 、 非 三 种 逻辑 功能 ， 证 明 利用 或 非 门 可 以 实 
现任 何 逻 辑 功能 - 


现任 何 逻 辑 功能 。 

10 ] <A.2, A.3 > 写 出 四 输入 奇 校 验 函数 的 真 值 表 (奇偶 校 验 参见 A.9.3 节 )。 

10 ] <A.2, A.3 > 用 输入 端 和 输出 端 带 有 “气泡 ”的 与 门 和 或 门 实现 四 输入 的 奇 校 验 函数 。 
10 ] <A.2, A.3 > 用 PLA 实现 四 输入 的 奇 校 验 函 数 。 

15 ] < A.2, A.3> 通过 使 用 多 路 选择 器 实现 与 非 门 (或 者 或 非 门 ), 证 明 二 输入 多 路 选择 器 可 以 
实现 任何 逻辑 功能 。 

5] <4.2,A.2,A.3> 假设 区 包含 三 位 , zz xo。 分 别 写 出 下 列 4 个 逻辑 函数 ( 当 且 仅 当 满足 
下 面 的 条 件 时 逻辑 函数 为 真 ): 

。 成 中 只 有 一 个 0。 

。 中 有 偶数 个 0。 

。 当 久 被 当 作 无 符号 二 进 制 数 时 ,XX 小 于 4。 

。 当 克 被 当 作 有 符号 数 (二 进 制 补 码 ) 时 ， XX 是 负数 。 
[5] <4.2,A.2,A.3> 用 PLA 实现 练习 题 A.11 的 4 个 逻辑 函数 。 
[5] <4.2, A.2, A.3 > 假设 多 由 三 位 zx 组 成 ,了 由 三 位 如、y1、 加 组 成 。 写 出 下 列 三 个 逻 
辑 表达 式 ( 当 且 仅 当 满 足下 面 的 条 件 时 逻辑 表达 式 为 “ 真 ”): 
日 七 < Y，X、 了 作为 无 符号 二 进 制 数 处 理 。 
e 三 < 了 ,天 了 作为 有 符号 〔 二 进 制 补 码 ) 数 处 理 。 








15 ] <A.2 > 通过 使 用 二 输入 的 与 非 门 实现 与 、 或 、 非 三 种 逻辑 功能 ， 证 明 利 用 与 非 门 可 以 实 
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® X=Ys 
使 用 分 层 的 方法 可 以 扩展 到 很 多 位 的 情况 。 说 明 如 何 扩展 为 6 位 的 比较 。 
A.14 [5] <A.2,A.3 > 实现 一 个 开关 网 络 ， 具有 2 个 输入 (4 和 8), 2 个 输出 (C 和 DD), 1 一 个 控制 
信号 (8)。 如 果 8 = 1， 网 络 为 直通 模式 , 并且 C= 4，D=B; 如 果 5=0， 网 络 为 交叉 模式 ， 
并 且 C=8, D=4; 
A.15 [15] <A.2,A.3> 由 A.2 节 中 EE 的 “ 积 之 和 ”形式 推出 其 “和 之 积 ” 形式 。 你 需要 使 用 德 . 靡 
根 定律 。 
A.16 [30] <A.2,A.3 > 设计 一 个 算法 ， 该 算法 能 够 对 任何 包含 与 、 或 、 非 地 辑 的 函数 构建 其 ' 积 之 
和 ”形式 的 表达 式 。 算 法 应 当 具 有 递归 性 ， 并 且 不 应 在 过 程 中 构建 真 值 表 。 
A.17 [5] <A.2,A.3> 写 出 多 路 选择 器 的 真 值 表 (输入 为 4、8 和 3S， 输 出 为 C)， 使 用 可 能 的 无 关 项 
来 简化 真 值 表 。 
A.18 [5] <A.3> 下 面 的 Verilog 模块 实现 了 何 种 功能 : 


module FUNC1 (I0, I1, S$, out); 
input I0, Il1; 
input S; 
output out; 
ut= SY TI: I0: 
endmodule 





module FUNC2 (out,ct],clk,reset); 
output [7:0] out; 
input ctl, clk, reset; 
reg [7:0] out: 
always @(posedge clk) 
if (reset) begin 
out <= 8°b0 ; 
end 
else if (ct1) begin 
out <= out + 1; 
end 
else begin 
out <= out - 1; 
end 
endmodule 


A,19 [5] <A.4>A.8.1 节 给 出 了 DD 触发 器 的 Verilog 代码 ， 请 给 出 D 锁 存 器 的 Verilog 代码 。 

A.20 [10] <A.3,A.4> 写 出 2-4 译 码 器 (与 /或 编码 器 ) 的 Verilog 模块 实现 。 

A.21 [10] <A.3,A.4> 根据 下 面 给 出 的 累加 器 的 逻辑 图 ， 写 出 其 Verilog 模块 实现 。 假 定 使 用 上 升 沿 
触发 寄存 器 和 异步 Rst。 





A.22 [20 ] <A.3,A.4,A.5 > 节 介绍 了 乘法 器 的 基本 操作 和 可 能 的 实现 。 这 一 实现 的 基本 单元 是 一 个 移 
位 加 法 单元 。 给 出 这 个 单元 的 Verilog 实现 ， 并 说 明 如 何 使 用 这 个 单元 构建 一 个 32 位 的 乘法 器 。 
A.23 [20] <A.3,A.4,A.5> 根 据 上 一 题 ， 实 现 无 符号 除法 器 。 
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A.24 


A.27 


A.28 


A.30 


A.32 


[15 ] <A.5 > 仅 使 用 加 法 器 的 符号 位 ,ALU 可 以 支持 slt (小 于 设置 )。 用 这 种 方法 比较 -7 和 
6s， 为 简单 起 见 ， 使 用 4 位 二 进 制 表示 100lw。 和 0110w。。 

1001wo— 0110w。= 1001wst1010m,= 0011wo 
这 个 结果 表示 -7>6， 显 然 是 错误 的 。 因 此 在 判断 时 必须 考虑 到 溢出 。 修 改 图 A-5-10 中 的 1 位 
ALU 来 正确 处 理 slt。 为 了 节省 时 间 可 以 直接 在 复印 的 图 上 修改 。 
[20] <A.6> 在 加 法 中 检查 溢出 的 一 个 简单 方法 是 看 最 高 有 效 位 的 CarryIn 是 否 和 最 高 有 效 位 的 
CarryOut 相同 。 证 明 这 个 方法 和 图 3-2 是 一 样 的 。 
[5] <A.6> 使 用 新 定义 重 写 A.6.3 节 中 16 位 加 法 器 的 超前 进位 逻辑 公式 。 首 先 ， 使 用 加 法 器 独 
立 位 CarryIn 信号 的 名 字 ， 即 使 用 e4, c8, c12,…， 而 不 是 使 用 Cl, C2, C3… ; 此 外 ,Pi , 表 
示 i 位 到 j 位 的 传输 信号 ，G,, ;表示 i 位 到 j 位 的 生成 信号 ， 例 如， 公式 

C2=GI1+ (Pl1* G0)+ (Pl. PO:c0) 

可 改写 成 

c8= G74t (P14* Ga0) + (Ps Pao* 0) 
该 定义 在 建立 位 数 更 宽 的 加 法 器 时 非常 有 用 。 
[15 ] <A.6> 使 用 练习 题 A.26 的 新 定义 写 出 64 位 加 法 器 的 超前 进位 逻辑 公式 ， 使 用 16 位 加 法 
器 作为 基础 模块 。 并 给 出 类 似 图 A-6-3 的 图 。 
[10] <A.6> 下 面 计算 加 法 器 的 相对 性 能 。 假 定 任 一 公式 对 应 的 硬件 只 包含 AND 或 者 OR (例如 A.62 
节 的 pi 和 gi 公式 )， 运行 时 间 为 一 个 时 间 单 位 T。 而 由 OR 和 若干 AND 构成 的 公式 (例如 A.6.2 
节 中 的 公式 cl 、c2、c3 和 c4 ) 执行 时 间 需 要 27。 原 因 是 其 需要 一 个 了 来 生成 AND 项 ， 并 需要 另 
一 个 T 米 产生 OR 的 结果 。 分 别 计算 4 位 行 波 进位 加 法 器 和 超前 进位 加 法 器 的 运算 次 数 和 性 能 的 
比 。 如 果 公 式 中 的 项 由 其 他 公式 定义 ， 则 增加 中 间 公 式 带 来 的 相应 时 延 ， 并 反复 迭代 直到 公式 中 
使 用 的 都 是 加 法 器 的 实际 输入 为 止 。 画 出 每 个 加 法 器 ， 标 出 计算 时 延 ， 并 标明 最 坏 时 延 的 路 径 。 
[15] <A.6> 类 似 练习 题 A.28， 不 过 这 次 只 计算 相对 16 位 加 法 器 的 相对 速度 ， 这 些 加 法 器 结构 
分 别 是 : (1 ) 行 波 进位 加 法 器 ; ( 2 ) 4 位 一 组 ， 组 内 超前 进位 ， 组 间 行 波 进位 ; ( 3 ) 采用 A.6.2 
节 方 案 的 超前 进位 加 法 器 。 
[15 ] <A.6> 与 练习 题 A.28 和 A.29 类 似 ， 本 题 计算 64 位 加 法 器 的 相对 速度 ， 加 法 器 的 结构 分 
别 是 : (1 ) 行 波 进位 加 法 器 ; ( 2 ) 4 位 一 组 , 组 内 超前 进位 ， 组 间 行 波 进位 ; ( 3 ) 16 位 一 组 ， 
组 内 超前 进位 ， 组 间 行 波 进位 ; ( 4 ) 采用 练习 题 A.27 方案 的 超前 进位 加 法 器 。 
[10] <A.6> 我 们 不 仅 可 以 把 加 法 器 看 成 一 个 把 两 个 数 相 加 然后 与 进位 连接 到 一 起 的 装置 ， 也 
可 以 令 加 法 器 把 三 个 数 (ai bi, ci) 相 加 ， 并 且 产 生 两 个 输出 〈s, ci+1 )。 当 进行 两 个 数 的 加 法 
时 ， 我 们 并 不 能 据 此 做 些 什么 。 但 是 当 我 们 将 两 个 以 上 的 操作 数 相 加 时 ， 就 有 可 能 减少 进位 
的 开销 。 该 想法 是 构造 两 个 独立 的 “和 "”， 分 别 叫 作 8 (和 位 ) 和 C' (进位 位 )。 在 这 一 过 程 
的 末尾 ， 我 们 需要 用 一 个 普通 的 加 法 器 把 8 和 C' 加 到 一 起 。 这 个 把 进位 传输 推迟 到 加 法 运算 
最 后 阶段 的 技术 称 为 进位 保留 加 法 。 图 A-14-1 右 下 角 的 模块 图 显示 了 该 加 法 器 的 结构 ， 其 中 
两 级 进位 保留 加 法 器 通过 一 个 普通 加 法 器 连接 在 一 起 。 
计算 将 4 个 16 位 数 相 加 的 延迟 ， 分 别 采用 完全 超前 进位 加 法 器 、 带 有 超前 进位 加 法 器 (用 来 形成 
最 终 的 累加 和 ) 的 进位 保留 加 法 器 (时 间 单位 了 与 练习 题 A.28 相同 )。 
[20 ] <A.6> 在 计算 机 当中 最 有 可 能 同时 把 多 个 数 相 加 到 一 起 的 情形 ， 可 能 出 现在 试图 在 一 个 
时 钟 周 期 中 通过 采用 多 个 加 法 器 将 多 个 数 相 加 来 加 快 乘 法 运算 的 时 候 。 相 比 于 第 3 章 中 的 乘 
法 算法 ， 具 有 多 个 加 法 器 的 进位 保留 方案 可 以 实现 10 倍 以 上 的 乘法 运算 速度 。 本 题 评 估 一 个 
组 全 逻辑 乘法 器 计算 两 个 16 位 正 数 乘法 的 开销 和 速度 。 假 设 有 16 个 中 间 项 M153，M14，…， 
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A.33 


A.34 


A.35 


A.36 





M0， 也 称 为 部 分 积 。 这 些 部 分 积 代表 被 乘 数 和 乘 数 每 一 位 (m15, m14, …, m0 ) 进行 “与 ” 运 
算 的 结果 。 我 们 的 想法 是 用 进位 保留 加 法 器 将 n 个 操作 数 减少 到 2m/3 个 并 行 组 (每 组 3 个 )， 
反复 迭代 直至 得 到 两 个 大 数 ， 最 后 用 普通 加 法 器 把 二 者 加 到 一 起 。 
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8s5 s4 S3 S2 S1 s0 
图 A-14-1 


4 个 4 位 数 相 加 的 传统 行 波 进位 加 法 器 和 进位 保留 加 法 器 。 左 边 给 出 了 加 法 器 的 细节 ， 其 
中 单独 信号 用 小 写 表示 ， 相 应 的 高 层 模块 见 右 图 ， 组 合 信号 用 大 写 表示 。 注 意 ，4 个 ”位 
数 的 和 需要 m+2 位 


首先 ， 画 出 将 这 16 项 相 加 的 16 位 进位 保留 加 法 器 的 结构 图 ， 如 图 A-14-1 右 半 部 分 所 示 。 然后 
计算 这 16 项 相 加 的 延迟 。 再 然后 计算 把 这 16 项 加 到 一 起 的 延迟 。 将 该 延迟 与 第 3 章 中 的 迁 
代 乘 法 方案 进行 比较 ， 但 这 里 仅 假定 16 次 迭代 过 程 中 使 用 的 是 具有 完全 超前 进位 的 16 位 加 
法 器 ， 该 加 法 器 的 速度 在 练习 题 A.29 中 已 经 计算 过 。 

[10] <A.6> 有 时 用 户 想 要 将 一 组 数 加 在 一 起 。 假 设 现在 要 使 用 1 位 全 加 器 将 4 个 4 位 数 (4， 
B，E， 下 ) 相 加 ， 忽 略 超前 进位 。 你 可 能 想 按 图 A-14-1 上 部 的 组 织 形式 将 这 些 1 位 加 法 器 连 
搂 起 来 。 在 传统 组 织 形式 之 下 是 一 种 全 新 的 全 加 器 组 织 形式 。 使 用 这 两 种 组 织 结构 实现 4 个 
数 的 加 法 ， 来 确定 你 得 到 了 相同 的 答案 。 

[5] <A.6> 首先， 画 出 将 这 16 项 相 加 的 16 位 进位 保留 加 法 器 的 组 织 结构 图 ， 如 图 A-14-1 所 
示 。 假 定 通过 每 个 1 位 加 法 器 的 时 间 是 27。 计算 分 别 采用 图 A-14-1 上 下 两 个 结构 将 4 个 4 
位 数 相 加 所 需 的 时 间 。 

[5] <A8> 很 多 时 候 你 可 能 希望 给 定 一 个 时 序 图 ， 该 时 序 图 包含 了 对 发 生 在 数据 输入 端 忆 和 时 钟 
输入 端 C (分 别 如 图 A-8-3 和 A-8-6 所 示 ) 的 变化 的 描述 ,那么 也 锁 存 器 和 D 触发 器 的 输出 端 
波形 (0) 是 不 同 的 。 用 一 两 句 话 描述 两 个 输出 端 波形 之 间 没 有 差别 的 情况 〔 如 输入 的 性 质 )。 
[5] <A8> 图 A-8-8 描述 了 LEGv8 数据 通路 中 寄存 器 文件 的 实现 。 假 设 需要 建立 一 个 新 的 寄存 
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A.37 


A.38 


A.39 


A.40 


A.41 


A.42 
A.43 


A.44 


器 文件 ， 但 是 只 有 两 个 寄存 器 和 一 个 读 端口 ， 并 且 每 个 寄存 器 只 有 两 位 数据 。 重 绘图 A-8-8， 
使 图 中 每 根 连接 线 仅 与 一 位 数据 对 应 (不 像 图 A-8-8 中 那样 ， 有 些 连 接线 为 5 位， 有些 则 为 32 
位 )。 采 用 DD 触发 器 重 绘图 中 的 寄存 器 。 无 需 画 出 D 触发 器 或 多 路 选择 器 的 具体 实现 。 

[ 10 ] <A.10 > 有 个 朋友 想 让 你 帮忙 设计 一 个 仿 安全 装置 的 “电子眼 " 。 该 设备 由 排 成 一 行 的 三 个 
灯 组 成 ， 这 三 个 灯 分 别 受 输出 Left、 Middle 和 Right 控制 ， 即 当 这 三 个 信号 当中 的 某 一 个 有 效 时 ， 
对 应 的 灯 被 点 亮 。 每 次 仅 有 一 个 灯 被 点 亮 ， 并 且 灯 光 从 左 到 右 “移动 "， 然 后 再 从 右 到 左 ， 这 样 
可 以 吓 跑 那些 误 以 为 该 设备 正在 监控 其 行踪 的 小 偷 。 画 出 用 于 控制 该 “电子 眼 ”的 有 限 状态 机 
图 示 。 注 意 ,“ 眼 睛 ”的 移动 速率 受 时 钟 速度 (不 应 当 过 高 ) 的 控制 ， 并 且 根本 没有 输入 信号 。 
[10] <A.10> 为 上 题 中 的 有 限 状 态 机 分 配 状 态 号 ,并 写 出 每 个 输出 信号 以 及 下 一 状态 各 位 的 逻 
辑 表达 式 。 

[15] <A.2,A.8,A.10> 用 3 个 D 触发 器 和 若干 逻辑 门 构造 一 个 3 位 计数 器 。 计 数 器 的 输入 包括 
一 个 复位 信号 reset (将 计数 器 复位 至 0 )， 以 及 一 个 计数 器 增加 信和 号 inc。 输 出 为 计数 器 的 值 。 
当 计数 器 值 为 7 并 且 继续 增加 时 ， 计 数值 回 滚 到 零 。 

[20 ] <A.10> 格雷 码 是 一 个 二 进 制 序列 ， 序 列 中 相 邻 的 两 个 编码 最 多 有 一 位 不 同 。 例 如 ， 下 面 
是 一 个 3 位 格雷 码 序列 : 000，001，011，010，110，111，101，100。 用 三 个 DD 触发 器 和 一 
个 PLA 实现 3 位 格雷 码 计数 器 ， 具 有 两 个 输入 信号 : 复位 信号 reset (将 计数 器 设 为 000 ) 和 
增 量 信号 ine (使 计数 器 进入 序列 中 的 下 一 状态 )。 注 意 ， 该 编码 序列 是 循环 的 ， 所 以 序列 中 
100 的 下 一 个 值 为 000。 

[25] <A.10> 我 们 希望 在 A.10 节 的 交通 灯 例子 中 添加 一 个 黄 灯 。 将 时 钟 频 率 调整 为 0.25Hz 
(时 钟 周期 4 秒 )， 即 黄 灯 的 持续 时 间 。 为 防止 绿灯 和 红 灯 循 环 过 快 ， 我 们 加 和 了 一 个 30 秒 
的 计时 器 。 该 计时 器 只 有 一 个 输入 信号 TimerReset， 用 于 对 计时 器 进行 重启 ; 一 个 输出 信号 
TimerSignal， 表 示 30 秒 时 间 已 经 期 满 。 同 时 ， 为 了 把 黄 灯 包 含 进 去 ， 我 们 必须 重新 定义 交通 
信号 ， 每 个 灯 定义 两 个 输出 信号 green 和 yellow。 如 果 输 出 NSgreen 有 效 ， 绿 灯 被 点 亮 ; 如 果 
输出 NSyellow 有 效 ， 黄 灯 被 点 亮 。 如 果 两 个 信号 都 无 效 ， 则 红 灯 被 点 亮 。green 和 yellow 信号 
不 能 同时 有 效 ， 否 则 美国 司机 见 到 之 后 肯定 会 感到 困惑 ， 即 使 欧洲 司机 明白 其 中 的 含义 ! 画 出 
上 述 改进 后 的 控制 器 对 应 的 有 限 状态 机 图 示 。 注 意 ， 状 态 名 称 不 要 和 输出 信号 同名 。 

[15 ] <A.10 > 写 出 练习 题 A.41 中 交通 灯 控制 器 的 下 一 状态 表 和 输出 函数 表 。 

[15] <A.2,A.10 > 为 练习 题 A.41 的 交通 灯 分 配 状态 编码 ， 并 使 用 练习 题 A.42 中 的 表格 写 出 每 
个 输出 信号 的 逻辑 表达 式 ， 包 括 下 一 状态 输出 。 

[15 ] <A.3,A.10> 用 PLA 实现 练习 题 A.43 的 逻辑 表达 式 。 
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1-bit ALU (一 位 ALU)，A-26-29， 见 Arithmetic 
logic unit (ALU) 
adder (加 法 器 )，A-27 
CarryOut (进位 输出 )，A-28 
for most significant bit (最 高 有 效 位 )，A-33 
illustrated (图 示 )，A-29 
logic unit for AND/OR (与 /或 逻辑 运算 单元 )， 
A-27 
performing AND，OR，and addition (执行 与 、 
或 以 及 加 法 )，A-31，A-33 
64-bitALU (64 位 ALU),A-29-37， 见 Arithmetic 
logic unit (ALU) 
defining in Verilog (Verilog 中 定义 )，A-34-37 
from 31 copies of 1-bitALU (复制 31 个 1 位 ALU)， 
A-34 
illustrated (图 示 )，A-35 
ripple carry adder ( 行 波 进位 加 法 器 )，A-29 
with 32 1-bit ALU (采用 32 个 1 位 ALU)，A-30 


A 


AArch32 (ARMv8 32 位 架构 )，73 
AArch64 (ARMv8 64 位 架构 )，73 
Absolute references (绝对 引用 )，131 
Abstractions (抽象 ) 
hardware/software interface ( 软 / 硬件 接口 )，22 
principle (原理 )，22 
to simplify design (为 简化 设计 )，11 
Acronyms ( 首 字母 缩 略 词 )，9 
Active matrix (主动 矩阵 式 )，18 
ADD (add， 加 )，64 
ADDI (add Immediate， 立 即 数 加 )，64 
ADDIS ( add Immediate and set flags， 加 立即 数 
并 设置 标志 位 )，64 
Addition (加 法 )，188-191， 见 Arithmetic 





binary (二 进 制 )，188-189 
floating-point ( 浮 点 )，212-215，220 
operands (操作 数 )，189 
significands (有 效 位 )，211 
speed (速度 )，191 
Address interleaving (地 址 交叉 )，395 
Address space (地 址 空间 )，442，445 
extending (扩展 )，493 
flat (平面 )，493 
ID (ASID， 地 址 空间 标识 )，460 
shared (共享 的 )，533-534 
single physical (单一 物理 地 址 )，533-534 
virtual (虚拟 )，460 
Address translation (地 址 转换 ) 
forARM cortex-A8 (ARM cortex-A8 芯片 )，483 
defined (定义 )，443 
fast (快速 )，452-454 
for Intel core i7 (英特尔 酷 害 i7 )，471，483 
TLB for ( 快 表 )，452-454 
Addresses (地 址 ) 
base ( 基 址 )，69 
byte ( 字 节 )，70 
defined (定义 )，69 
memory ( 主 存 )，79 
virtual (虚拟 )，442，462，463 
Addressing ( 寻 址 ) 
base ( 基 址 )，120 
in branches (分 支 )，117-120 
displacement ( 偏 移 )，120 
immediate (立即 数 )，120 
LEGv8 modes (LEGv8 模式 )，120-121 
PB-relative (PC 相对 寻 址 )，118，120 
register (寄存 器 )，120 
x86 modes (x86 模式 )，158 
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ADDS (add and set flags， 加 并 设置 标志 位 )，64， 
164 
addu (Add Unsigned， 无 符号 整数 加 法 )，64 
Advanced Encryption Standard ( AES， 高 级 加 密 
标准 )，488 
Advanced Vector Extensions ( AVX， 高 级 向 量 扩 
展 )，232，240 
Aliasing (别名 )，458，459 
Alignment restriction (对 齐 限制 )，71 
ALU control (ALU 控制 ), 271-273， 见 Arithmetic 
logic unit (ALU) 
bits (比特 /位 )，260 
ALU control block (ALU 控制 块 )，275 
ALUOp (ALU 操作 码 )，272 
bits (比特 /位 ) 272，273 
control signal (控制 信号 )，275 
Amazon Web Services (AWS， 亚 马 还 网 络 服务 )，439 
AMD Opteron X4 (Barcelona)(AMD 卑 龙 处 理 器 
X4 (巴塞 罗 那 ))，559，560 
AMD64 (AMD 推出 的 一 种 64 位 处 理 器 架构 )， 
155, 156, 232 
Amdahl's law (Amdahl 定律 )，415，519 
corollary (结果 /推论 )，49 
defined (定义 )，49 
fallacy ( 廖 误 )，572 
and (AND， 与 )，64 
AND gates (与 门 )，A-12 
AND operation (与 操作 )，91，A-6 
andi (And Immediate， 立 即 数 与 )，65 
Annual failure rate (AFR， 年 失效 率 )，432 
Versus. MTTE of disks (与 磁盘 平均 无 故障 时 
间 比 较 )，433-434 
Antidependence ( 反 依赖 )，348 
Antifuse ( 反 熔 丝 )，A-77 
Apple iPad 2 A1395 (苹果 平板 计算 机 )，20 
logic board of ( 逻辑 主板 )，20 
processor integrated circuit of (处 理 器 集成 电 
路 )，21 
Application binary interface ( ABI， 应 用 程序 二 
进 制 接口 )，22 
Application programming interface ( API， 应 用 程 
序 编程 接口 ) 
Architectural registers (体系 结构 寄存 器 )，358 


Arithmetic (算术 运算 )，186-248 
addition (加 法 )，188-191 
addition and subtraction (加 减法 )，188-191 
division (除法 )，197-204 
fallacies and pitfalls ( 雇 误 与 陷阱 )，242-245 
floating-point( 浮 点 )，205-230 
historical perspective (历史 观点 )，248 
multiplication (乘法 )，191-197 
parallelism and (并 行 与)，230-232 
Streaming SIMD Extensions and advanced 
Vector extensions in x86 ( x86 中 的 SIMD 
扩展 和 高 级 向 量 扩展 )，232-233 
subtraction (减法 )，188-191 
subword parallelism ( 子 字 并 行 )，230-232 
subword parallelism and matrix multiply ( 子 字 
并 行 和 和 矩阵 乘法 )，238-242 
Arithmetic instructions (算术 运算 指令 )， 见 Ims- 
tructions 
logical (逻辑 )，263 
operands〔 操 作 数 )，67-74 
Arithmetic intensity (算术 密度 )，557 
Arithmetic logic unit (ALU， 算术 人 逻辑 运算 单元 )， 
见 ALU control, Control units 
1-bit (1 位 )，A-26-29 
64-bit ( 64 位 )，A-29-37 
before forwarding (转发 之 前 )，309 
branch datapath (分 支 数 据 通路 )，266 
hardware (硬件 )，190 
memory-reference instruction use (存储 器 相关 
指令 的 使 用 )，257 
for register values (寄存 器 值 )，264 
R-format operations (R 型 操作 )，265 
signed-immediate input (有 符号 立即 数 输入 )，323 
ARM Cortex-A53 ( ARM Cortex-A53 芯片 )，256， 
355-358 
address translation for (地 址 转换 )，483 
caches in, 484 
data cache miss rates for (数据 cache 缺失 率 )，485 
memory hierarchies of (存储 器 层次 结构 )，482 
performance of (性 能 )，485-487 
specification (规格 )，356 
TLB hardware for ( 快 表 硬件 )，483 
ARM instructions (ARM 指令 )，152-154 
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12-bit immediate field ( 12 位 立即 数字 段 )，153 
condition field( 条 件 字段 )，334 
ARMV7，62 
ARMv8, 62, 163-169 
common features between MIPS and ( 和 MIPS 
之 间 共 同 的 特点 )，152 
Arrays (数组 )，429 
logic elements (逻辑 部 件 )，A-18-19 
multiple dimension (多 维 )，226 
pointers versus (指针 )，146-150 
procedures for setting to zero ( 置 零 过 程 / 程序 )， 
147 
ASCIT 
binary numbers versus (二 进 制 数 )，111 
character representation (字符 表示 )，110 
defined (定义 )，110 
symbols (符号 /标志 )，113 
Assemblers (汇编 器 )，129-131 
defined (定义 )，14 
function (函数 )，129 
number acceptance (数据 接收 )，130 
object file (目标 文件 )，130 
Assembly language (汇编 语言 )，15 
defined (定义 )，14，129 
floating-point ( 浮 点 )，221 
illustrated (图 示 )，15 
LEGv8, 64, 86 
programs (程序 )，129 
translating into machine language (翻译 为 机 器 
语言 )，86 
Asserted signals (无 效 信 号 )，262,，A-4 
Associativity ( 相 联 度 ) 
in caches (在 cache 中 )，419 
degree ( 度 )，increasing (增加 )，418，466 
increasing (增加 )，423 
set (设置 )，tag size versus (标记 位 大 小 )，423 
Atomic compare and swap〔 原 子 比 较 与 交换 )，127 
Atomic exchange (原子 交换 )，126 
Atomic fetch-and-increment (原子 取 后 递增 )，127 
Automobiles，computer application in (车 载 ， 计 
算 机 应 用 ), 4 
Average memory access time ( AMAT， 平 均 访 存 
时 间 ), 416 


calculating (计算 )，416 


B 


Bandwidth (带宽 )，30 
bisection (二 分 法 )，551 
external to DRAM (DRAM 外 部 )，412 
memory ( 主 存 )，394-395，412 
network (网 络 )，549 
Base addressing ( 基 址 寻 址 )，69，120 
Base registers ( 基 址 寄存 器 )，70 
Basic block (基本 块 )，96 
Benchmarks (基准 测试 程序 )，554-556 
defined (定义 )，46 
multicores (多 核 )，538-545 
multiprocessor (多 处 理 器 )，554-556 
NAS parallel (NAS 并 行 )，556 
parallel (并 行 )，555 
PARSEC suite (PARSEC 程序 集 )，556 
SPEC CPU, 46-48 
SPEC power (SPEC 功 耗 )，48-49 
SPRCrate (SPRC 分 值 )，554 
Stream ( 流 )，564 
Biased notation ( 移 码 表示 )，82，209 
Big-endian byte order (大 端 字 节 次 序 )，70 
Binary numbers (二 进 制 数 )，83 
ASCII versus (ASCI 码 )，111 
conversion to decimal numbers (转换 为 十 进 制 
数 ),，78 
defined (定义 )，75 
Bisection bandwidth (对 分 带宽 )，551 
Bit maps (位 图 )， 
defined (定义 )，18，73 
goal ( 目标 )，18 
storing (存储 )，18 
Bits (二 进 制 位 ) 
ALUOp (ALU 操作 码 )，272，273 
defined (定义 )，14 
dirty( 脏 数据 )，452 
guard (保护 )，228 
patterns (模式 )，228-229 
reference (引用 )，450 
Tounding ( 舍 人 )，228 
sign (符号 )，77 
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sticky (粘贴 )，228 
valid (有 效 )，397 
Blocking assignment (阻塞 赋值 )，A-24 
Blocking factor (分 块 因子 )，428 
Blocks ( 块 ) 
combinational (组 合 的 )，A-4 
defined (定义 )，390 
finding (查找 )，467 
flexible placement (灵活 放置 )，416-418 
least recently used (LRU， 最 近 最 少 使 用 )，423 
locating in cache (位 于 cache 内 )，421-422 
miss rate and (失效 率 )，405 
multiword mapping addresses to (多 字 地 址 映射 )， 
404 
placement locations (放置 位 置 )，466 
placement strategies (放置 策略 )，418 
replacement selection (替换 选择 )，423 
replacement strategies (替换 策略 )，468 
spatial locality exploitation (开发 空间 局 部 性 )， 
405 
state (状态 )，A-4 
valid data (有 效 数 据 )，400 
Bonding ( 绑 定 )，28 
Boolean algebra (布尔 代数 )，A-6 
Bounds check shortcut (边界 检查 的 简便 方法 )，98 
Branch address (分 支 地 址 )，168 
Branch datapath (分 支 数据 通路 ) 
ALU (算术 逻辑 运算 单元 )，266 
operations (操作 )，266 
Branch delay slots (分 支 延迟 槽 ) 
Branch instructions (分 支 指令 ) 
pipeline impact (流水 线 影响 )，329 
Branch not taken (分 支 未 发 生 ) 
assumption (假定 )，328-329 
defined (定义 )，266 
Branch prediction (分 支 预测 ) 
as control hazard solution (控制 冒险 解决 方案 )，295 
buffers (缓冲 区 )，331，333 
defined (定义 )，294 
dynamic (动态 )，295，331-334 
static (静态 )，345 
Branch predictors (分 支 预测 器 ) 
accuracy (准确 性 )，333 


correlation (相关 )，333 
information from (信息 来 源 )，333 
tournament (竞争 )，333 
Branch register (分 支 寄存 器 )，168 
Branch table (分 支 表 )，169 
Branch taken (分 支 发 生 ) 
cost reduction (成 本 降低 )，330 
defined (定义 )，266 
Branch target (分 支 目标 ) 
addresses (地 址 )，266 
buffers (缓冲 区 )，333 
Branches (分 支 )， 见 Conditional branches 
addressing in ( 寻 址 )，117-120 
compiler creation (编译 器 创建 )，94 
decision (决策 )，moving up (上 移 )，330 
delayed (延迟 )，295，330-331，295 
ending (结束 )，96 
execution in ID stage (在 指令 译 码 级 执行 )，330 
pipelined (流水 线 )，330 
unconditional (无 条 件 )，318 
Branch-on-zero instruction (为 0 分 支 指令 )，280 
B-type instruction format (B 型 指令 格式 )，113 
Bubble Sort ( 冒 泡 排序 )，145 
Bubbles (气泡 )，326 
Buses (总 线 )，A-19 
Bytes ( 字 节 )， 
addressing ( 寻 址 )，70 
order (顺序 )，70 
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C language (C 语言 ) 
assignment compiling into LEGv8 (赋值 语句 编 
译 为 LEGv8 指令 )，66 
compiling (编译 )，150 
compiling assignment with registers (使 用 寄存 
器 编译 赋值 语句 )，68 
compiling while loops in (编译 while 循环 )，95-96 
sort algorithms (排序 算法 )，146 
translation hierarchy (翻译 层次 )，128 
translation to LEGv8 assembly language (翻译 
为 LEGv8 汇编 语言 )，66 
variables (变量 )，106 
Cache blocking and matrix multiply (cache 分 块 和 
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矩阵 乘法 )，488-491 
Cache coherence (cache 一 致 性 )，477-481 
coherence (一 - 致 性 )，477 
consistency (连贯 性 /一 致 性 )，466 
enforcement schemes (强制 执行 )，467-468 
migration (移植 / 迁移 )，479 
problem 【问题 )，477，478，481 
protocols (协议 )，479 
replication (复制 )，479 
snooping protocol ( 监听 协议 )，479-481 
Cache controllers ( cache 控制 器 )，482 
Cache hits (cache 命中 )，458 
Cache misses (cache 缺失 ) 
block replacement on ( 块 替 换 )，468 
capacity (容量 )，470，471 
compulsory (强制 的 )，470 
conflict (冲突 )，470 
defined (定义 )，306 
direct-mapped cache (直接 映射 cache)，418 
fully associative cache (全 相 联 cache)，420 
handling (处 理 )，406-407 
memory-stall clock cycles (存储 器 阻塞 时 钟 周 
期 )，413 
reducing with flexible block placement (用 灵活 
的 块 蔡 换 以 减少 )，416-418 
set-associative cache (组 相 联 cache)，419 
steps (步骤 )，407 
in write-through cache (在 写 直达 式 cache 中 )，407 
Cache performance (cache 性 能 )，412-431 
calculating (计算 )，414 
hit time and (命中 时 间 )，415-416 
impact on processor performance (对 处 理 器 性 
能 的 影响 )，414 
Cache-aware instructions (cache 感知 指令 )，496 
Caches，397-412， 见 Blocks 
Accessing (访问 )，400-403 
inARM cortex-A53, (在 ARM cortex-A53 上 )，484 
associativity in (结合 性 )，419-420 
bits in (位 数 )，404 
bits needed for (需要 的 位 数 )，404 
contents illustration (内 容 说 明 )，401 
defined (定义 )，21，397-398 
direct-mapped (直接 映射 )，398，399，404，416 


empty ( 空 )，400-401 
FSM for controlling (有 限 状 态 机 控制 )，472 
fully associative (全 相 联 映射 )，417 
inconsistent (不 一 致 )，407 
index (索引 )，402 
in Intel Core i7, (英特尔 酷 害 17 处 理 器 )，484 
Intrinsity FastMATH example ( Intrinsity FastMATH 
处 理 器 )，409-412 
locating blocks in ( 块 定位 )，421-422 
locations (位 置 )，399 
multilevel (多 级 )，412，424 
nonblocking ( 非 阻塞 )，483 
physically addressed (物理 地 址 )，458，459 
physically indexed (物理 索引 )，458 
physically tagged (物理 标记 )，458 
primary (首要 的 / 基本 的 )，424，431 
secondary (次 要 的 )，424，431 
set-associative (组 相 联 )，417 
simulating (模拟 )，491 
size (尺寸 )，403 
split (分 离 )，411 
summary (小 结 )，411-412 
tag field (标记 字段 )，402 
virtual memory and TLB integration (虚拟 存储 
器 和 快 表 集 成 )，457-459 
virtually addressed (虚拟 地 址 )，458 
virtually indexed 【虚拟 索引 )，458 
virtually tagged (虚拟 标记 )，458 
write-back ( 写 回 )，408，409，469 
write-through ( 写 直 达 )，407，409，469 
writes ( 写 操作 )，407-409 
Callee (被 调用 者 )，101，103 
Caller (调用 者 )，101 
Capacity misses (容量 缺失 )，470 
Carry lookahead (先行 进位 )，A-37-46 
4-bit ALUs using (4 位 ALU 使 用 )，A-43 
adder (加 法 器 )，A-38 
fast，with first level of abstraction (快速 ， 使 
用 第 一 级 抽象 )，A-38-40 
fast, with“infinite ”hardware (快速 ， 使 用 “无 
限 ”硬件 )，A-38 
fast, with second level of abstraction (快速 ， 使 
用 第 二 级 抽象 )，A-40-45 
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pluming analogy (管道 类 比 )，A-41，A-42 
ripple carry speed versus ( 行 波 进位 速率 ),A-45 
summary ( 小结)，A-45-46 
Carry save adders (进位 保留 加 法 器 )，197 
Cause register (原因 寄存 器 ) 
Cell phones (移动 电话 )，7 
Central processor unit (CPU， 中 央 处 理 单元 )， 见 
Processors (处 理 器 ) 
classic performance equation (经 典 性 能 方程 )， 
36-40 
coprocessor0 ( 协 处 理 器 0 )，A-33-34 
defined (定义 )，19 
execution time (执行 时 间 )，32，33-34 
performance (性 能 )，33-35 
system time (系统 时 间 )，32 
time (时 间 )，413 
time measurements (时 间 测 定 )，33-34 
user time (用 户 时 间 )，32 
Characters (字符 )， 
ASCII representation (ASCII 码 表示 )，110 
in Java (在 Java 中 )，113 
Chips (芯片 )，19，25，26 
manufacturing process (生产 过 程 )，26 
Clear exclusive instruction ( CLREX， 清 除 独占 指 
令 )，487 
Clock cycles (时 钟 周期 ) 
defined (定义 )，33 
memory-stall (存储 器 阻塞 )，413 
number of registers and (寄存 器 数量 )，67 
worst-case delay and (最 坏 情况 延迟 )，283 
Clock cycles per instruction ( CPI， 每 条 指令 执行 
的 时 钟 周 期 数 )，35，293 
one level of caching (一 级 缓存 )，424 
two levels of caching (二 级 缓存 )，424 
Clock rate (时 钟 频率 ) 
defined (定义 )，33 
frequency switched as function of ( 频率 转换 函 
数 )，41 
power and (功率 / 功 耗 )，40 
Clocking methodology (时 钟 策略 ),261-263,A-47 
edge-triggered (边沿 触发 )，261-263 ，A-47 
level-sensitive ( 电 平 敏感 )，A-73，A-74-75 
forpredictability (可 预测 性 )，261 


Clocks (时 钟 )，A-47-49 

edge (边沿 )，A-47，A-49 

in edge-triggered design (边沿 触发 设计 ), A-72 

skew ( 偏 移 )，A-73 

specification (说 明 书 /手册 )，A-56 

synchronous system (同步 系统 )，A-47-48 
Cloud computing ( 云 计 算 )，549 

defined (定义 )，7 
Cluster networking (集群 网 络 )，553-554 

defined (定义 )，516，546 

isolation (隔离 )，547 

organization (组 织 )，515 
CMOS ( complementary metal oxide semiconductor, 

互补 金属 氧化 物 半导体 )，41 

Coarse-grained multithreading ( 粗 粒度 多 线程 )，530 
Cold-start miss ( 冷 启 动 失效 )，470 
Collision misses (冲突 失效 )，470 
Column major order ( 按 列 顺序 )，427 
Combinational blocks (组 合 块 )，A-4 
Combinational elements (组 合 元 素 )，260 
Combinational logic (组 合 逻 辑 ),261,A-3,A-9-20 

arrays (数组 )，A-18-19 

decoders ( 译 码 器 )，A-9 

defined (定义 )，A-5 

don't cares (无 关 项 )，A-17-18 

multiplexors (多 路 选择 器 )，A-10 

ROMs (只 读 存储 器 )，A-14-16 

two-level (二 级 )，A-11-14 

Verilog (Verilog 语言 )，A-23-26 
Commit units (提交 单元 ) 

buffer (缓冲 区 )，350 

defined (定义 )，350 

in update control (更 新 控制 )，355 
Common case fast (加 速 大 概率 事件 )，11 
Communication (通信 )，23-24 

overhead reducing (开销 减少 )，44-45 
Compare and branch zero (比较 为 0 分 支 )，330 
Comparisons (比较 ) 

constant operands in (常数 操作 数 )，73 

signed versus unsigned (有 符号 数 与 无 符号 数 )，97 
Compilers (编译 器 )，129 

branch creation (创建 分 支 )，95 

defined (定义 )，14 
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function (函数 )，14，129 
Just In Time (JIT， 及 时 )，137 
optimization (优化 )，146 
speculation (推测 )，344-345 
Compiling (编译 ) 
C assignment statements (C 赋值 语句 )，66 
C language (C 语言 ), 95, 150 
floating-point programs ( 浮 点 程序 )，222-225 
if-then-else (if-then-else 语句 )，94 
procedures (过 程 )，102，104-105 
Tecursive procedures (递归 过 程 )，104-105 
while loops ( while 循环 )，95-96 
Compulsory misses (强制 失效 )，470，471 
Computer architects (计算 机 架构 师 )，11-12 
abstraction to simplify design (通过 抽象 简化 设 
计 ), 11 
common case fast (加 速 大 概率 事件 )，11 
dependability via redundancy (通过 元 余 增 加 可 
靠 性 )，12 
hierarchy of memories (存储 器 层次 结构 )，12 
Moore's law 摩尔 定律 )，11 
parallelism (并 行 )，12 
pipelining (流水 线 )，12 
prediction (预测 )，12 
Computers (计算 机 ) 
application classes (应 用 类 别 )，traditional ( 传 
统 )，5-6 
applications (应 用 程序 )，4 
arithmetic for (算术 )，186-248 
component organization (组 成 结构 )，17 
components (组 件 )，17，177 
design measure (设计 尺度 )，53 
desktop (桌面 机 )，5 
embedded (嵌入 式 )，5 
in information revolution (信息 革命 )，4 
instruction representation (指令 表示 )，82-89 
Post-PC era (后 PC 时 代 )，6-7 
principles (原则 / 原理 )，86 
servers (服务 器 )，5 
Condition codes/flags (条 件 码 / 标志 )，97 
Conditional branches (条 件 分 支 ) 
changing program counter with (更 改 程序 计数 
器 )，333 


compiling if-then-else into (将 if-then-else 语句 
编译 为 )，94 
defined (定义 )，93 
implementation (实现 )，99 
in loops (循环 中 )，119 
PC-relative addressing (PC 相对 寻 址 )，118 
Conditional move instructions (条 件 移动 指令 )，334 
Conflict misses (冲突 失效 )，470 
Constant operands (常数 操作 数 )，73-74 
frequent occurrence ( 频 发 )，73 
Content Addressable Memory (CAM， 按 内 容 访 
问 存储 器 )，422 
Context switch (上 下 文 切换 )，460 
Control (控制 ) 
ALU (算术 逻辑 运算 单元 )，271-273 
challenge (挑战 )，336 
finishing (完成 )，281 
forwarding (转发 / 旁 路 )，320 
pipelined (流水 线 )，311-315 
Control functions (控制 功能 ) 
defining (定义 )，276 
for single-cycle implementation ( 单 周 期 实现 )， 
281 
Control hazards (控制 冒险 )，292-295，328-329 
branch delay reduction (减少 分 支 延 迟 )，330 
branch not taken assumption( 假 定 分 支 不 执行 )， 
328 
branch prediction as solution (分 支 预测 作为 解 
决 方案 )，295 
delayed decision approach (延迟 决定 方法 )，295 
dynamic branch prediction (动态 分 支 预测 )，331 
pipeline stalls as solution (流水 线 阻塞 作为 解 
决 方案 )，293 
pipeline summary (流水 线 小 结 )，335-336 
simplicity (简单 )，328 
solutions (解决 方案 )，293 
static multiple-issue processors (静态 多 发 射 处 
理 器 )，345-346 
Control lines (控制 线 ) 
asserted (有 效 )，276 
in datapath (数据 通路 中 )，275 
execution/address calculation (执行 /地 址 计算 )，312 
final three stages (最 后 三 个 阶段 )，314 
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instruction decode/register file read (指令 译 码 / 
读 寄 存 器 文件 )，312 
instruction fetch ( 取 指 令 )，312 
memory access (存储 器 访问 )，312 
setting of (一 组 )，276 
values (数值 )，312 
write-back ( 写 回 )，312 
Control signals (控制 信号 ) 
ALUOP (ALU 操作 码 )，275 
defined (定义 )，262 
effect of (影响 )，276 
multi-bit (多 位 )，276 
pipelined datapaths with ( 流水线 数 据 通路 ),311- 
315 
Control units (控制 单元 )，259， 见 Arithmetic logic 
unit 
illustrated (举例 说 明 )，277 
main designing (主要 部 分 设计 )，273-276 
output (输出 )，271-273 
Coprocessors ( 协 处 理 器 ) 
defined (定义 )，226 
Core LEGv8 instruction set (核心 LEGv8 指令 集 ), 248 
abstract view (抽象 图 )，258 
implementation (实现 )，256-260 
implementation illustration (实现 举例 )，259 
overview (概述 )，257-260 
subset ( 子 集 )，256 
Cores ( 核 ) 
defined (定义 )，43 
number per chip (每 片 数 量 )，43 
Correlation predictor (相关 预测 器 )，333 
CPU (中 央 处 理 单元 )， 9 
Critical word first (关键 字 优先 )，406 
Crossbar networks (交叉 开关 网 络 )，551 
CUDA programming environment ( CUDA 编程 环 
境 )，539 
Cyclic redundancy check (循环 元 余 校 验 )，437 
Cylinder ( 柱 面 )，396 


D 


D flip-flops (D 触发 器 )，A-50，A-52 
D latches (D 锁 存 器 )，A-50，A-51 
Data bits (数据 位 )，435 


Data hazards (数据 冒险 ) 289-292，316-328， 见 
Hazards 
forwarding (转发 / 旁 路 )，289，316-328 
load-use ( 读 后 写 )，290，329 
stalls and (阻塞 )，324-328 
Data race (数据 竞争 )，125 
Data sclectors (数据 选择 器 )，258 
Data transfer instructions (数据 传输 指令 )， 见 In- 
structions 
defined (定义 )，68，69 
load (装载 )，69 
offset ( 偏 移 量 )，70 
store (存储 )，71-72 
Datacenters (数据 中 心 ) 7 
Data-level parallelism (数据 级 并 行 )，524 
Datapath clements (数据 通路 部 件 ) 
defined (定义 )，263 
sharing (共享 )，268 
Datapaths (数据 通路 ) 
branch (分 支 )，266 
building (构建 /搭建 )，263-271 
control unit (控制 单元 )，277 
defined (定义 )，19 
design (设计 )，263 
exception handling (异常 处 理 )，339 
for fetching instructions ( 取 指 令 )，265 
for hazard resolution via forwarding (通过 旁 路 
解决 冒险 )，323 
for LEGv8 architecture (LEGv8 体系 结构 )，269 
for memory instructions ( 访 存 指令 )，267 
in operation for branch-on-zero instruction ( 为 
0 分 支 指令 执行 )，279 
in operation for R-type instruction ( R 型 指令 执 
行 ), 277, 278 
operation of ( ……- 的 操作 )，276-280 
pipelined (流水 的 )，297-315 
for R-type instructions (R 型 指令 )，278，276-277 
single creating (单一 创建 )，267 
single-cycle ( 单 周期 )，296 
static two-issue (静态 双 发 射 )，347 
Deasserted signals (无 效 信号 )，262，A-4 
Decimal numbers (十 进 制 数 ) 
binary number conversion to (二 进 制 数 转换 )，78 
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defined (定义 )，75 
Decision-making instructions (决策 指令 )，93-99 
Decoders ( 译 码 器 )，A-9 
two-level (二 级 )，A-64 
Decoding machine language (机 器 语言 详 码 )，121-125 
Defect 缺陷 / 瑕 六 )，26 
Delayed branches (延迟 分 支 )，295， 见 Branches 
as control hazard solution (作为 控制 冒险 的 解 
决 方案 )，295 
for five-stage pipelines (五 级 流水 )，323-324 
reducing (减少 )，330 
Delayed decision (延迟 决策 )，295 
DeMorgan's theorems ( 德 ， 摩根 定理 )，A-11 
Denormalized numbers ( 非 规格 化 数 )，230 
Dependability via redundancy (通过 元 余 提高 可 
靠 性 )，12 
Dependable memory hierarchy (可 信 存 储 器 层次 
结构 )，432-437 
failure defining (失效 定义 )，432 
Dependences (依赖 /相关 ) 
hetween pipeline registers( 流 水 线 寄存 器 之 间 )。 
319 
between pipeline registers and ALU inputs ( 流 
水 线 寄存 器 和 ALU 输入 之 间 )，319 
bubble insertion and (气泡 插入 )，326 
detection (检测 )，318 
name (名 字 )，348 
sequence (时 序 )，316 
Design (设计 ) 
compromises and ( 折 中 )，85 
datapath (数据 通路 )，263 
digital (数字 )，366 
logic (逻辑 )，260-263 
main control unit ( 主 控制 单元 )，273-276 
memory hierarchy challenges (存储 器 层次 结构 
的 挑战 )，472 
pipelining instruction sets (流水 化 指令 集 )，288 
Desktop computers defined (桌面 计算 机 定义 )，5 
DGEMM (Double precision General Matrix Multiply , 
双 精 度 通用 矩阵 乘法 )，238，363，365， 
427，553 
cache blocked version of (cache 分 块 版 本 ), 429 
optimized C version of (优化 的 C 版 本 )，241， 


363, 489 
performance (性 能 )，365，430 
Dicing (切割 )，27 
Dies ( 管 芯 )，26，26-27 
Digital design pipeline (数字 设计 流水 线 )，366 
Direct-mapped caches (直接 映射 cache)，421， 
见 Caches address portions 
choice of ( …… 的 选择 )，422 
defined (定义 )，398，416 
illustrated (举例 说 明 )，399 
memory block location (存储 器 块 定位 )，417 
misses (缺失 )，419 
single comparator (一 位 比较 器 )，421 
total number of bits (总 位 数 )，404 
Dirty bit ( 脏 位 )，452 
Disk memory (磁盘 存储 器 )，395-397 
Displacement addressing ( 偏 移 寻 址 )，120 
Divide algorithm (除法 算法 )，200 
Dividend (被 除数 )，198 
Division (除法 )，197- 203 
algorithm (算法 )，199 
dividend (被 除数 )，198 
divisor (除数 )，198 
Divisor (除数 )，198 
divu (Divide Unsigned， 无 符号 数 除法 )， 见 Arithmetic 
faster (加 速 )，202-203 
floating-point ( 浮 点 )，220 
hardware (硬件 )，198-201 
hardware improved version (硬件 改进 版 )，201 
in LEGv8 (在 LEGv8 指令 集中 )，203 
operands (操作 数 )，198 
quotient ( 商 )，198 
remainder (余数 )，198 
signed (有 符号 数 )，201-202 
SRT (一 种 除法 算法 )，203 
Don't cares (无 关 项 )，A-17-18 
example (实例 )，A-17-18 
term (术语 )，273 
Double data rate (DDR， 双 倍数 据 速率 )，393 
Double Data Rate ( DDR) SDRAM ( 双 倍 数据 速 
率 SDRAM)，393-394，A-64 
Double precision ( 双 精 度 )， 见 Single precision 
defined (定义 )，207 
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representation (表示 )，206-207 
Double words ( 双 字 )，66，158 
Dual inline memory module ( DIMM， 双 列 直 插 
存储 器 模块 )，395 
Dynamic branch prediction (动态 分 支 预 测 )，331- 
334， 见 Control hazards 
branch prediction buffer (分 支 预测 缓冲 )，331 
loops and (循环 )，333 
Dynamic hardware predictors (动态 硬件 预测 器 )， 
295 
Dynamic multiplD-issue processors (动态 多 发 射 处 
理 器 )，343，349-352， 见 Multiple issue 
pipeline scheduling (流水 线 调度 )，350-352 
superscalar (超标 量 )，349 
Dynamic pipeline scheduling (动态 流水 线 调度 )， 
350-352 
commit unit (提交 单元 )，350 
concept (概念 )，350 
hardware-based speculation (基于 硬件 的 推断 )， 
352 
primary units (主要 单元 )，351 
reorder buffer ( 重 排序 缓冲 区 )，355 
reservation station (保留 站 )，350 
Dynamic random access memory ( DRAM， 动 态 
随机 访问 存储 器 ), 392, 393-395, A-62-64 
bandwidth external to (外 部 带宽 )，412 
cost (代价 )，23 
defined (定义 )，19，A-62 
Double Date Rate (DDR， 双 倍数 据 速率 )，393- 
394 
growth of capacity (容量 的 增长 )，25 
internal organization of (内 部 组 织 )，394 
pass transistor (传输 晶体 管 )，A-62 
single-transistor ( 单 晶体 管 )，A-63 
size (尺寸 )，412 
speed (速率 )，23 
synchronous ( SDRAM， 同 步 SDRAM)，393- 
394, A-59, A-64 
two-level decoder (两 级 译 码 器 )，A-64 
Dynamically linked libraries (DLL， 动 态 链 接 库 ), 
134-136 
Defined (定义 )，134 
lazy procedure linkage version (惰性 过 程 链接 


版 本 )，135 
局 


Early restart (提前 重启 )，406 
EdgD-triggered clocking methodology (边沿 触发 
时 钟 策略 )，261，262，A-47，A-72 
advantage (优势 )，A-48 
clocks (时 钟 )，A-72 
drawbacks( 雇 端 )，A-73 
illustrated (举例 说 明 )，A-49 
rising edge/falling edge (上 升 沿 /下 降 沿 ), A-47 
Electrically erasable programmable read-only 
memory (EEPROM， 电 可 擦 除 可 编程 只 
读 存储 器 )，395 
Elements (元 素 / 部 件 ) 
combinational (组 合 的 )，260 
datapath (数据 通路 )，263，268 
memory (存储 器 )，A-49-57 
state (状态 )，260，262，264，A-47，A-49 
Embedded computers (媒人 式 计 算 机 )，5 
application requirements (应 用 需求 )，6 
design (设计 )，5 
Encoding (编码 ) 
LEGv8 instruction (LEGv8 指令 )，86，122 
ROM logic function (ROM 逻辑 函数 )，A-15 
x86 instruction (x86 指令 )，161-162 
Error correction ( 纠 错 )，A-64-66 
Error detection (错误 检测 )，A-65 
Error detection code (错误 检测 码 )，434 
Ethernet (以 太 网 )，23 
EX stage (执行 级 ) 
load instructions (load 指令 )，303 
overflow exception detection (溢出 异常 检测 )， 
338, 341 
store instructions (store 指令 )，305 
Exabyte ( 艾 字 节 ), 6 
Exception enable (异常 使 能 )，461 
Exception link register ( ELR ， 异 常 链接 寄存 器 )， 
337，459，461 
address capture (地 址 捕获 )，340 
defined (定义 )，338 
in restart determination (重启 确定 )，337 


480 Ea | 





Exception Program Counters ( EPC， 异 常 程序 计 
数 器 )，326 
address capture (地 址 捕获 )，331 
copying (复制 )，181 
defined (定义 )，181，327 
in restart determination (重启 决策 )，326-327 
transferring (转移 )，182 
Exception Syndrome Register ( ESR， 异 常 特征 寄 
存 器 )，337，461 
Exceptions (异常 )，336-342 
association (关联 )，342 
datapath with controls for handling ( 带 有 控制 
处 理 的 数据 通路 )，339 
defined (定义 )，207，336 
detecting (检测 )，336 
event types and (事件 类 型 )，336 
imprecise (不 精确 的 )，342 
interrupts versus (与 中 断 相 对 )，336 
in LEGv8 architecture (在 LEGv8 体系 结构 中 )， 
337-338 
overflow (溢出 )，339 
pipelined computer example (流水 线 计算 机 实 
例 )，339 
in pipelined implementation (在 流水 线 实现 中 ), 
338-342 
precise (精确 的 )，342 
Teasons for (原因 )，337-338 
result due to overflow in add instruction (由 于 
加 法 指令 溢出 导致 的 结果 )，341 
saving/restoriag stage on (保存 / 恢复 级 )，462 
Executable files (可 执行 文件 ) 
defined (定义 )，131 
Execute or address calculation stage (执行 或 地 址 
计算 级 )，303 
Execute/address calculation (执行 或 地 址 计算 ) 
control line (控制 线 )，312 
load instruction (load 指令 )、303 
store instruction (store 指令 )，303 
Execution time (执行 时 间 ) 
as valid performance measure (作为 有 效 的 性 能 
指标 )，51 
CPU (中 央 处 理 单元 )，32，33-34 
pipelining and (流水 线 技术 )，297 


Exponents (指数 )，206 
Extended-register instructions (寄存 器 扩展 指令 )， 
164 


F 


Failures synchronizer (失效 / 故障 同步 器 )，A-76 
Fallacies ( 雇 误 )，227， 见 Pitfalls add immediate 
unsigned 
Amdahl's law (Amdahl 定律 )，572 
arithmetic (算术 运算 )，242-245 
assembly language for performance (汇编 语言 
性 能 )，169 
commercial binary compatibility importance ( 商 
用 计算 机 二 进 制 兼容 的 重要 性 )，170 
defineded (定义 )，49 
low utilization uses little power ( 低 利 用 率 低能 
耗 ) 50 
peak performance (峰值 性 能 )，572 
pipelining (流水 线 技术 )，366 
powerful instructions mean higher performance 
(强大 的 指令 意味 着 更 高 的 性 能 )，169 
right shift ( 右 移 )，242 
False sharing ( 假 共 享 )，480 
Fast carry (快速 进位 ) 
with “infinite "hardware(“ 无 限 的 ”硬件 ),A-38 
with first level of abstraction (第 一 级 抽象 )， 
A-38-40 
with second level of abstraction (第 二 级 抽象 )， 
A-40-45 
Fault avoidance (故障 避免 )，433 
Fault forecasting (故障 预测 )，433 
Fault tolerance (容错 )，433 
Fermi architecture (Fermi 体系 结构 )，539，568 
Fieid programmable devices ( FPD， 现 场 可 编程 
器 件 )，A-77 
Field programmable gate arrays ( FPGA， 现 场 可 
编程 门 阵列 )，A-77 
Fields (字段 ) 
defined (定义 )，84 
LEGv8 (LEGv8 )，84-86 
names ( 名字)，84 
Fine-grained multithreading ( 细 粒 度 多 线程 )，530 
Finite-state machines ( FSM ， 有 限 状 态 机 )，472- 
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477，A-67-71 
controllers (控制 器 )，475 
for simple cache controller( 简 单 cache 控制 器 )， 
476-477 
implementation (实现 )，474，A-69 
Mealy (米利 机 )，475 
Moore (摩尔 机 )，475 
next-state function (下 一 状态 函数 ), 474, A-66 
output function (输出 丽 数 )，A-66，A-68 
state assignment (状态 分 配 )，A-69 
state register implementation( 状态 寄存 器 实现 )， 
A-70 
style of (类 型 )，475 
synchronous (同步 )，A -66 
traffic light example (交通 灯 实 例 )，A-67-69 
Flash memory (闪存 )，395 
characteristics (特征 )，23 
defined (定义 )，23 
Flip-flops (触发 器 ) 
D flip-flops (D 触发 器 )，A-50，A-52 
defined (定义 )，A-50 
Floating point ( 浮 点 )，205-230，232 
assembly language【〈 汇 编 语言 )，221 
binary to decimal conversion (二 进 制 向 十 进 制 
转换 )，211 
branch (分 支 )，220 
challenges (挑战 )，246 
division (除法 )，220 
form (形式 )，206 
fused multiply add (混合 乘 加 )，228 
guard digits (保护 位 )，226-227 
IEEE 754 standard (IEEE 754 标准 )，207-211 
intermediate calculations (中 间 结 果 计 算 )，226 
machine language (机 器 语言 )，212 
LEGv8 instruction frequency for (LEGv8 指令 
频率 )，226 
LEGv8 instructions (LEGv8 指令 )，220-226 
machine language (机 器 语言 )，221 
operands (操作 数 )，221 
overflow【 溢 出 )，206 
packed format (压缩 格式 )，232 
precision (精度 )，243 
procedure with two-dimensional matrices ( 带 有 


二 维和 矩阵 的 过 程 )，223-225 
programs compiling (程序 编译 )，222-225 
registers (寄存 器 )，226 
Tepresentation (表示 / 表达 )，206-211 
rounding ( 舍 人 )，226 
sign and magnitude (符号 与 幅 值 )，206 
SSE2 architecture (SSE2 体系 结构 )，232-233 
subtraction (减法 )，220 
underflow (下 洲 )，206 
units (单位 )，227 
in x86 (在 x86 中 )，233 
Floating-point addition ( 浮 点 数 加 法 )，212-215 
arithmetic unit block diagram (算术 运算 单元 框 
图 )，216 
binary (二 进 制 )，213 
illustrated (举例 说 明 )，214 
instructions (指令 )，220 
steps (步骤 )，212 
Floating-point multiplication ( 浮 点 乘法 )，215-219 
binary (二 进 制 )，219 
illustrated (举例 说 明 )，218 
instructions (指令 )，220 
significants (有 效 位 )，215 
steps (步骤 )，215-217 
Flushing instructions (清空 指令 )，329，330 
exceptions and (异常 )，340 
Forwarding (转发 旁 路 )，316-328 
ALU before (算术 逻辑 运算 单元 )，321 
control (控制 )，320 
datapath for hazard resolution (用 于 解决 冒险 的 
数据 通路 )，323 
defined (定义 )，289 
functioning (功能 )，317 
graphical representation (图 解 表 示 )，290 
multiple results and (多 个 返回 值 )，292 
multiplexors (多 路 选择 器 )，322 
pipeline registers before (流水 线 寄 存 器 )，321 
with two instructions ( 带 有 两 条 指令 )，289-290 
Fractions (分 数 )，206，207 
Frame buffer ( 帧 缓冲 )，18 
Frame pointers ( 帧 指针 )，106 
Fully associative caches (全 相 联 cache), 468-469， 
见 Caches block replacement Strategies 
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choice of (选择 )，422 
defined (定义 )，417 
memory block location (存储 器 块 定位 )，417 
misses (缺失 )，420 
Fully connected networks (全 互连网 络 )，551 
Fused-multiply-add ( FMA ) operation (混合 乘 加 
操作 )，228 


G 


Galois/Counter Mode (GCM) encryption ( 伽 罗 瓦 
/ 计数 器 模式 加 密 )，488 
Gates ( 门 )，A-3，A-8 
AND (与 )，A-12 
delays (延迟 )，A-45-46 
NAND (与 非 )，A-8 
NOR (或 非 )，A-8，A-49 
Gather-scatter (聚集 - 分 散 )，527，568 
General-purpose registers (通用 寄存 器 )，154 
Generate (生成 ) 
defined (定义 )，A-39 
example (实例 )，A-44 
super (超级 )，A-40 
Gigabyte (G 字 节 ), 6 
Global miss rates (全 局 缺失 率 )，430 
Global pointers (全 局 指针 )，106 
GPU computing (GPU 计算 )， 见 Graphics processing 
units (GPU) 
Graphics displays (图 像 显示 ) 
computer hardware support (计算 机 硬件 支持 )，18 
LCD (液晶 显示 屏 )，18 
Graphics processing units (GPU ， 图 形 处 理 单元 )， 
538-543， 见 GPU computing 
as accelerators (加 速 器 )，538 
defined (定义 )，46，522 
memory (存储 器 )，538 
multilevel caches and (多 级 cache)，538 
parallelism (并 行 性 )，539 
perspective (观点 )，543-545 
Gresham's Law (Gresham 法 则 )，248 
Grid computing (网 格 计算 )，549 
GTX (GTX 公司 )，280，564-569 
Guard digits (保护 位 ) 
defined (定义 )，226 


rounding with ( 舍 人 )，227 


H 


Halfwords ( 半 字 )，114 
Hamming，Richard，434 
Hamming distance ( 汉 明 距离 )，434 
Hamming Error Correction Code (ECC， 汉 明 ( 检 
错 ) 纠 错 码 )，434-435 
calculating (计算 )，434-435 
Hard disks (硬盘 ) 
access times (访问 时 间 )，23 
defined (定义 )，23 
Hardware (硬件 ) 
as hierarchical layer (作为 分 层 的 层次 )，13 
language of ( …… 的 语言 )，14-16 
operations (操作 )，63-67 
supporting procedures in (支持 过 程 )，100-110 
synthesis (综合 )，A-21 
virtualizable (可 虚拟 化 )，440 
Hardware description languages (硬件 描述 语言 )， 
见 Verilog 
defined (定义 )，A-20 
using (使 用 )，A-20-26 
VHDL (VHDL 硬件 描述 语言 )，A-20-21 
Hardware multithreading (硬件 多 线程 )，530-533 
coarse-grained ( 粗 粒度 )，530 
options (选择 )，531 
simultaneous (同时 )，531 
Hardware-based speculation (基于 硬件 的 推测 )， 
352 
Hazard detection units ( 冒险 检测 单元 )，324 
functions (函数 )，324 
pipeline connections for (流水 线 连接 )，327 
Hazards (冒险 )，292-293，328-336， 见 Pipelining 
control 
data (数据 )，289，316-328 
forwarding and ( 旁 路 )，323 
structural (结构 的 )，288-289，305 
Heap ( 堆 ) 
allocating space on (在 …… 上 分 配 空 间 )，107- 
110 
defined (定义 )，107 
Hexadecimal numbers (十 六 进 制 数 )，83 
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binary number conversion to (将 二 进 制 数 转换 
为 …… )，83，84 
Hierarchy of memories (存储 器 层次 结构 )，12 
High-Ievel languages (高 级 语言 )，14-16 
benefits (收益 )，16 
importance (重要 性 )，16 
Hit rate (命中 率 )，390 
Hit time (命中 时 间 ) 
cache performance and (cache 性 能 )，415-416 
defined (定义 )，390 
Hit under miss (缺失 下 命中 )，483 
Hold time (保持 时 间 )，A-53 
Human genome project (人 类 基因 组 计划 )，4 


1 
J/O benchmarks (输入 /输出 基准 测试 程序 )， 见 


Benchmarks 
ID stage( 译 码 级 ) 
branch execution in (分 支 执行 )，330，331 
load instructions (load 指令 )，303 
store instruction in (store 指令 )，302 
IEEE 754 floating-point standard ( IEEE 754 浮 点 
标准 )，207-211，208， 见 Floating point 
rounding modes ( 舍 人 模式)，227 
If statements (条 件 语句 )，118 
I-format ([ 型 )，87 
If-then-else (If-then-else 语句 )，94 
Immediate addressing (立即 数 寻 址 )，120 
Immediate instructions (立即 数 指令 )，73 
Imprecise interrupts (不 精确 中 断 )，342 
Index-out-of-bounds check (索引 越界 检查 )，98 
In-order commit ( 按 序 提交 )，351 
Input devices (输入 设备 )，16 
Inputs (输入 )，273 
Instruction count (指令 计数 )，36，38 
Instruction decode/register file read stage (指令 译 
码 / 读 寄 存 器 文件 级 ) 
control line (控制 线 )，311-312 
load instruction (load 指令 )，300 
store instruction (store 指令 )，305 
Instruction execution illustrations (指令 执行 图 解 ) 
clock cycle (时 钟 周期 )，9 
Instruction fetch stage ( 取 指令 级 ) 


control line (控制 线 )，312 
load instruction (load 指令 )，300 
store instruction (store 指令 )，305 
Instruction formats (指令 格式 )，161 
ARMv7, 151 
defined (定义 )，83 
Ltype (1 型 )，85 
LEGv8, 151 
MIPS, 15] 
R-type (R 型 ),，85, 273 
x86, 161 
Instruction latency (指令 延迟 )，367 
Instruction mix (指令 混合 比 )，39 
Instruction set architecture (指令 集体 系 结构 ) 
ARM, 152-154 
branch address calculation (分 支 地 址 计算 )，266 
defined (定义 )，22，S2 
history (历史 )，173-174 
maintaining (维护 )，52 
protection and (保护 )，441 
thread (线程 )，B-31-34 
Virtual machine support (虚拟 机 支持 )，440-441 
Instruction sets (指令 集 ) 
ARMv8, 171 
design for pipelining (针对 流水 线 设计 )，228 
LEGv8, 247 
MIPS-32 (MIPS-32 指令 集 )，151 
x86 growth (x86 增长 )，170 
Instruction-level parallelism ( ILP， 指 令 级 并 行 )， 
365， 见 Parallelism 
defined (定义 )，43，344 
exploitation increasing (开发 增长 )，354 
and matrix multiply (和 矩阵 乘法 )，363-365 
Instructions (指令 )，60-174， 见 Arithmetic instr- 
uctions, MIPS, Operands 
add immediate (加 立即 数 )，73 
addition (加 法 )，190 
arithmetic-logical (算术 - 逻辑 )，263 
ARM，152-154 
assembly (汇编 )，66 
cache-aware (cache 感知 )，496 
conditional branch (条 件 分 支 )，93，94 
conditional move (条 件 移动 )，334 
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core ( 核 )，246 

data transfer (数据 传输 )，68 

decision-making (决策 制定 )，93-99 

defined (定义 )，14，62 

as electronic signals (电子 信号 )，82 

encoding (编码 )，86 

exception and interrupt (异常 和 中 断 )，A-80 

exclusive OR ( 异 或 )，A-57 

fetching ( 读 取 )，265 

fields (字段 )，83 

floating-point (x86 )( 浮 点 型 )，232，233 

floating-point ( 浮 点 )，220-221 

flushing (清空 )，329，330，340 

immediate (立即 数 )，73 

introduction to (引言 )，62-63 

left-to-right flow (从 左 向 右 流 动 )，298 

load，69 

logical operations (逻辑 运算 )，90-93 

memory-reference (存储 器 引用 /访问 )，257 

multiplication (乘法 )，197 

nop ( 空 操作 )，325-326 

performance (性 能 )，35-36 

pipeline sequence (流水 顺序 )，325 

remainder (余数 )，A-55 

representation in computer (在 计算 机 中 表示 )， 
82-89 

restartable (可 重启 的 )，462 

R-type (R 型 )，263，268 

store (存储 )，72 

store exclusive register ( STXR ， 存 储 专用 寄存 
器 )，126 

subtraction (减法 )，190 

vector (向 量 )，524 

as words (以 字 的 形式 )，62 

x86, 154-159 

Jnstructions per clock cycle ( IPC， 每 时 钟 周期 执 
行 的 指令 数 )，343 
Jntegrated circuits (IC， 集 成 电路 )，19， 见 specific 

chips 

cost (成 本 /开销 )，27 

defined (定义 )，25 

manufacturing process (制造 /生产 过 程 )，26 

very largD-scale ( VLSI， 超 大 规模 集成 电路 )， 


25 
Intel Core i7 (英特尔 酷 剧 i7 )，46-49，256，517， 
564-569 
address translation for (地 址 转换 )，483 
architectural registers (体系 结构 级 寄存 器 )，358 
caches in(…… 中 的 cache)，484 
memory hierarchies of (存储 器 层次 结构 )，482- 
487 
microarchitecture ( 微 体系 结构 )，358 
performance of ( …… 的 性 能 )，485-486 
SPEC CPU benchmark (SPEC CPU 基准 测试 程 
序 )，46-48 
SPEC power benchmark ( SPEC 功 耗 基 准 测试 
程序 )，48-49 
TLB hardware for (TLB 硬件 )，483 
Intel Core i7 920 (英特尔 酷 害 i7 920 )，358-360 
microarchitecture ( 微 体系 结构 )，358 
Intel Core i7 (英特尔 酷 窒 17 )，960 
benchmarking and rooflines of (基准 测试 程序 
和 屋顶 线 )，564-569 
Intel Core i7 Pipelines (英特尔 酷 窒 7 流水线 ), 
354, 358-360 
memory components (存储 组 件 )，359 
performance (性 能 )，361-362 
program performance (程序 性 能 )，362 
specification (规格 说 明 )，356 
Intel x86 microprocessors (英特尔 x86 微 处 理 器 ) 
clock rate and power for (时 钟 频率 和 功 耗 )，40 
Interleaving (交叉 )，412 
Interrupt enable (中 断 使 能 )，461 
Interrupts (中 断 ) 
defined (定义 )，207，336 
event types and (事件 类 型 )，336 
= 








exceptions versus (异常 与 

imprecise (不 精确 )，342 

precise (精确 )，342 

vectored (向 量 )，337 
Jntrinsity FastMATH processor (Intrinsity FastMATH 

处 理 器 )，409-412 

caches, 410 

data miss rates (数据 缺失 率 )，411 ，421 

Tead processing ( 读 处 理 )，456 

TLB ( 快 表 )，454-457 
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write-through processing〔 写 直达 处 理 )，456 
Jnverted page tables ( 反 向 页 表 )，451 
Issue packets (发 射 包 )，345 


J 


Java 
bytecode ( 字 节 码 )，136 
characters in (字符 )，113-115 
goals (目标 )，136 
interpreting (解释 )，136，150 
programs starting (程序 开始 )，136-137 
sort algorithms (排序 算法 )，146 
strings in (字符 串 )，113-115 
translation hierarchy (翻译 层次 )，136 
Java Virtual Machine (JVM ，Java 虚拟 机 )，150 
Jump instructions ( 跳 转 指令 )，254 
branch instruction versus (分 支 指令 与 …… )，270 
control and datapath for (控制 和 数据 通路 )，271 
implementing (实现 )，270 
instruction format (指令 格式 )，270 
Just In Time (JIT) compilers (及 时 编译 器 )，137， 
576 


K 


Karnaugh maps ( 卡 诺 图 )，A-18 
Kernel mode (核心 态 )，459 
Kilobyte ( 千 字 节 ), 6 


| 


LAPACK (线性 代数 程序 包 )，243 
Latches ( 锁 存 器 ) 

D latch (D 锁 存 器 )，A-50，A-51 

defined (定义 )，A-50 
Latency (延迟 ) 

instruction (指令 )，367 

pipeline (流水 线 )，297 

use (使 用 )，346 
LDUR (load register，load 寄存 器 指令 )，64 
LDURB (load byte，load 字 节 指令 )，64 
LDURH (load half，load 半 字 指令 )，64 
LDURSW (load signed word，load 无 符号 字 指令 )， 

64 

LDXR ( load exclusive register，load 专用 寄存 器 


指令 )，64，122 
Leaf procedures (时 过 程 )， 见 Procedures 
defined (定义 )，104 
example (实例 )，113 
Least recently used (LRU， 最 近 最 少 使 用 ) 
as block replacement strategy (作为 块 蔡 换 策 略 )， 
468-469 
defined (定义 )，423 
pages (页 )，448 
Least significant bits (最 低 有 效 位 ) 
defined (定义 )，75 
Left-to-right instruction flow (从 左 向 右 指令 流 )， 
298-299 
LEGv8, 62, 64, 86 
architecture (体系 结构 )，204 
arithmetic core (算术 运算 核心 )，246 
arithmetic instructions (算术 运算 指令 )，63 
assembly instruction ,mapping (汇编 指令 映射 )， 
82-83 
compiling C assignment statements into (将 C 
赋值 语句 编译 为 …… )，66 
compiling complex C assignment into (将 复杂 
C 赋值 语句 编译 为 …… )，66 
control registers (控制 寄存 器 )，461 
divide in(…… 中 的 除法 )，203 
exceptions in(，…… 中 的 异常 )，337-338 
fields (字段 )，84-85 
floating-point instructions ( 浮 点 指令 )，220-221 
instruction classes (指令 分 类 )，173 
instruction encoding (指令 编码 )，86，122 
instruction formats (指令 格式 )，124，151 
instruction set (指令 集 )，62，171，246，247， 
256-260 
machine language (机 器 语言 )，88 
memory addresses (存储 器 地 址 )，71 
memory allocation for program and data (程序 
和 数据 的 存储 空间 分 配 )，108 
multiply in (+: 中 的 乘法 )，197 
operands (操作 数 )，64 
Pseudo ( 伪 码 )，246 
register conventions (寄存 器 )，109 
static multiple issue with (静态 多 发 射 )，345- 
347 
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Level-sensitive clocking ( 电 平 敏感 时 钟 )，A-73， 
A-74-75 
defined (定义 )，A-73 
two-phase (二 相 )，A-74 
Linkers (链接 器 )，131-134 
defined (定义 )，131 
executable files (可 执行 文件 )，131 
steps (步骤 )，131 
using (使 用 )，131-134 
Linking object files (目标 文件 链接 )，132-134 
Linpack (线性 测试 程序 包 )，554 
Liquid crystal displays (LCD， 液晶 显示 器 )，18 
Load balancing (负载 均衡 )，521-522 
Load byte (加 载 字 节 )，167 
Load halfword (加 载 半 字 )，167 
Load instructions (load 指令 )， 见 Store instructions 
base register ( 基 址 寄存 器 )，274 
compiling with (用 …… 编译 )，71-72 
datapath in operation for ( …… 操作 的 数据 通 
路 )，279 
defined (定义 )，69 
EX stage (执行 级 )，303 
halfword unsigned (无 符号 半 字 )，114 
ID stage ( 译 码 级 )，302 
IF stage ( 取 指 级 )，302 
load byte unsigned (加 载 字 节 无 符号 数 )，79 
load half (加 载 半 字 )，114 
MEM stage( 访 存 级 )，304 
move wide with keep (剩余 位 保持 的 宽 立 即 数 
移 位 指令 )，115 
move wide with zeros (剩余 位 置 零 的 宽 立 即 数 
移 位 指令 )，115 
pipelined datapath in ( ……- 中 的 流水 线 数据 通 
路 )，307 
signed (有 符号 )，79 
unit for implementing (执行 / 实现 单元 )，267 
unsigned (无 符号 )，79 
WB stage ( 写 回 级 )，304 
Load register (加 载 寄存 器 )，69，72 
Loaders (装载 器 )，134 
Load-use data hazard ( 读 后 写 数据 冒险 )，290， 
329 
Load-use stalls ( 读 后 写 阻塞 )，329 





Local area networks (LAN， 局域网 )，24， 见 
Networks 
Local miss rates (局 部 缺失 率 )，430 
Locality (局 部 性 )， 
principle (原则 / 原理 )，388 
spatial (空间 的 )，388，391 
temporal (时 间 的 )，388，391 
Lock synchronization (同步 锁 )，125 
Locks (镇 )，534 
Logic (逻辑 ) 
combinational (组 合 的 )，262，A-5，A-9-20 
components (组 件 / 部件 )，261 
equations (方程 式 )，A-7 
minimization (最 小 化 )，A-18 
programmable array (PAL， 可 编程 阵列 ), A-77 
sequential (时 序 )，A-5，A-55-57 
two-level (两 级 )，A-11-14 
Logical operations (逻辑 操作 )，90-93 
AND (与 )，91 
ARM，154 
FOR ( 异 或 )，92 
NOT ( 非 )，91 
shifts ( 移 位 )，90 
Lookup tables (LUT， 查 找 表 )，A-78 
Loop unrolling (循环 展开 )， 
for multiple-issue pipelines (多 发 射流 水 线 )，348 
register renaming and (寄存 器 重 命名 )，348 
Loops (循环 )，95-96 
conditional branches in (条 件 分 支 )，118 
for (for 语 句 )，147 
prediction and (预测 )，333-334 
test (测试 )，147，148 
while compiling ( while 语句 编译 )，95-96 


M 


Machine code (机 器 代码 )，83 

Machine instructions (机 器 指令 )，83 

Machine language (机 器 语言 )，15 
branch offset in (分 支 偏 移 )，119 
decoding ( 译 码 )，121-124 
defined (定义 )，14，83 
floating-point ( 浮 点 )，221 
illustrated (举例 说 明 )，15 


过 引 487 





LEGv8, 88 
SRAM (静态 随机 存储 器 )，21 
translating MIPS assembly language into ( 将 
MIPS 汇编 语言 转换 为 …… )，86 
Main memory ( 主 存 )，442， 见 Memory 
defined (定义 )，23 
page tables (页 表 )，451 
physical addresses (物理 地 址 )，442 
Matrix multiply (矩阵 乘法 )，238-242，569-571 
Mealy machine (米利 有 限 状 态 机 )，475，A-67， 
A-70, A-71 
Mean time to failure ( MTTF， 平 均 无 故障 时 间 )， 
432 
improving (改进 )，433 
versus AFR of disks( 伺 盘 年 失效 率 )，433-434 
Megabyte ( 兆 字 节 ), 6 
Memory (存储 器 ) 
addresses (地 址 )，79 
affinity (关联 )，562 
bandwidth (带宽 )，394-395，411 
cache，21，397-412，412-431 
CAM (计算 机 辅助 制造 )，422 
defined (定义 )，19 
DRAM (动态 随机 存 取 存储 器 )，19，393-394， 
A-62-64 
flash (闪存 )，23 
GPU (图 形 处 理 单元 )，538 
instructions datapath for (指令 数据 通路 )，267 
main (主要 )，23 
nonvolatile ( 非 易 失 )，22 
operands (操作 数 )，68-69 
read-only (ROM， 只 读 存 储 器 )，A-14-16 
SDRAM (同步 动态 随机 存 取 存 储 器 )，393-394 
secondary (二 级 / 辅助 的 )，23 
SRAM (静态 随机 存 取 存 储 器 )，A-57-61 
stalls (阻塞 )，414 
technologies for building (制造 技术 )，24-28 
virtual (虚拟 )，441-465 
volatile ( 易 失 )，22 
Memory access stage ( 访 存 阶 段 ) 
control line (控制 线 )，313 
load instruction (load 指令 )，303 


store instruction (store 指令 )，303 


Memory bandwidth (存储 器 带宽 )，565，573 
Memory consistency model (存储 一 致 性 模型 )，481 
Memory elements (存储 单元 )，A-49-57 
clocked (时 钟 控制 )，A-50 
DD flip-flop (D 触发 器 )，A-50，A-52 
D latch (D 锁 存 器 )，A-51 
DRAMs (动态 随机 存 取 存储 器 )，A-62-66 
flip-flop (触发 器 )，A-50 
hold time (保持 时 间 )，A-53 
latch ( 锁 存 器 )，A-50 
setup time (建立 时 间 )，A-52，A-53 
SRAMs (静态 随机 存储 器 )，A-57-61 
unclocked (无 时 钟 的 )，A-50 
Memory hierarchies (存储 器 层次 结构 )，559 
ofARM cortex-A8 (ARM cortex-A8 芯片 )，482-487 
block (or line)( 块 (或 行 ))，390 
cache performance (cache 性 能 )，412-431 
caches, 397-431 
common framework (一 般 框架 )，465-472 
defined (定义 )，389 
design challenges (设计 挑战 )，472 
exploiting (开发 )，386-513 
of Intel core i7 (英特尔 酷 害 订 处 理 器 )，482- 
487 
level pairs ( 层 对 )，390 
multiple levels (多 层次 )，389 
overall operation of (全 部 操作 )，457-458 
parallelism and (并 行 )，477-481 
pitfalls (陷阱 )，491-495 
program execution time and (程序 执行 时 间 )， 
431 
quantitative design parameters (定量 设计 参数 )， 
466 
redundant arrays and inexpensive disks (廉价 元 
余 磁 盘 阵列 )，481 
reliance on (利用 /依赖 )，390 
structure (结构 )，389 
structure diagram (结构 图 )，392 
variance (变化 )，431 
virtual memory (虚拟 存储 器 )，441-465 
Memory rank (存储 块 )，395 
Memory technologies (存储 技术 )，392-397 
disk memory (磁盘 存储 器 )，395-397 
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DRAM technology (动态 随机 存储 器 技术 ),392， 
393-395 
flash memory (闪存 )，395 
SRAM technology (静态 随机 存储 器 技术 ), 392， 
393 
Memory-stall clock cycles( 存 储 器 阻塞 时 钟 周期 )， 
413 
Message passing (消息 传递 ) 
defined (定义 )，543 
multiprocessors (多 处 理 器 )，543-548 
Metastability ( 亚 稳 态 )，A-75 
Microarchitectures ( 微 体 系 结构 )，358 
Intel Core i7 920 (英特尔 酷 寄 i7 920 )，358 
Microprocessors 〈 微 处 理 器 ) 
design shift (设计 转换 )，517 
multicore (多 核 )，8，43，517 
Migration (迁移 )，479 
Million instructions per second (MIPS， 每 秒 百 万 
条 指令 )，51 
Minterms (最 小 项 ) 
defined (定义 )，A-12 
MIPS and ARMv8 (MIPS 和 ARMv8 ) 
common features beween (共同 特征 )，152 
MIPS-32 instruction set (MIPS-32 指令 集 )，151 
MIPS-64 instructions (MIPS-64 指令 集 )，151 
Miss penalty (失效 / 缺失 代价 ) 
defined (定义 )，390 
determination (决策 )，405-406 
multilevel caches reducing (多 级 cache 减少 )， 
424 
Miss rates (缺失 率 ) 
block size versus ( 块 大 小 )，406 
data cache (数据 cache)，467 
defined (定义 )，390 
global (全 局 )，430 
improvement (改进 )，405-406 
Intrinsity Fast MATH processor (Intrinsity 
FastMATH 处 理 器 )，411 
local (本 地 )，430 
miss sources (缺失 原因 )，471 
split cache (分 离 cache)，411 
Miss under miss (缺失 下 的 缺失 )，483 
MMX (MultiMedia eXtension， 多 媒体 扩展 )，232 


Moore machines (摩尔 机 ),475,A-67,A-70, A-71 
Moore's law (摩尔 定律 )，11，379，538 
Most significant bit (最 高 有 效 位 )， 
1-bit ALU for (1 位 ALU)，A-33 
defined (定义 )，75 
move (移动 )，144 
MOVK ( move wide with keep， 剩 余 位 保持 宽 立 
即 数 移 位 指令 )，64，115 
MOVZ ( move wide with zero， 剩 余 位 置 零 宽 立 
即 数 移 位 指令 )，64，115 
Multicore (多 核 )，533-537 
Mnulticore multiprocessors (多 核 多 处 理 器 )，8，43 
defined (定义 )，8，517 
Multilevel caches (多 级 cache)， 见 Caches 
complications (并 发 )，430 
defined (定义 )，412，430 
miss penalty reducing (减少 缺失 代价 )，424 
performance of (性 能 )，424 
summary (小 结 )，431-432 
Multimedia extensions (多 媒体 扩展 ) 
vector versus (向 量 )，525-526 
Moultiple dimension arrays (多 维 数组 )，226 
Multiple instruction multiple data ( MIMD， 多 指 
令 多 数据 )，574 
defined (定义 )，523，524 
Multiple instruction single data (MISD， 多 指令 
单数 据 )，523 
Multiple issue (多 发 射 )，343-350 
code scheduling (代码 调度 )，347-348 
dynamic (动态 )，343 ，349-350 
issue packets (发 射 包 )，345 
loop unrolling and (循环 展开 )，348 
processors (处 理 器 )，343，344 
static (静态 )，343，345-349 
throughput and (吞吐 率 )，353 
Multiple processors (多 个 处 理 器 )，569-571 
Multiple-clock-cycle pipeline diagrams (多 时 钟 周 
期 流水 线 图 )，308 
five instructions (五 条 指令 )，309 
illustrated (说 明 )，309 
Multiplexors (多 路 选择 器 )，A-10 
controls (控制 )，473 
in datapath (数据 通路 )，275 
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defined (定义 )，258 
forwarding control values (转发 / 旁 路 控制 值 )， 
322 
selector control (选择 控制 )，271 
two-input ( 双 输 入 )，A-10 
Multiplicand (被 乘 数 )，192 
Multiplication (乘法 )，191-197， 见 Arithmetic 
fast hardware (快速 硬件 )，196 
faster (更 快 )，196-197 
first algorithm (第 一 种 算法 )，194 
fioating-point ( 浮 点 )，215-217 
hardware (硬件 )，192-194 
instructions (指令 )，197 
in MIPS (在 MIPS 中 )，197 
multiplicand (被 乘 数 )，197 
multiplier ( 乘 数 )，197 
operands (操作 数 )，197 
product (乘积 )，197 
sequential version (顺序 版 本 )，192-194 
signed (有 符号 )，196 
Multiplier ( 乘 数 )，192 
Multiply algorithm (乘法 算法 )，195 
Multiprocessors (多 处 理 器 ) 
benchmarks (基准 测试 程序 )，554-556 
defined (定义 )，516 
historical perspective (历史 观点 )，577 
message-passing (消息 传递 )，529-534 
organization (组 织 )，515，545 
for performance (性 能 )，573 
shared memory (共享 存储 器 )，517，533-537 
software (软件 )，517 
UMA (一 致 性 存储 器 访问 )，534 
Multistage networks (多 级 网 络 )，551 
Multithreading (多 线程 ) 
coarse-grained ( 粗 粒度 )，530 
defined (定义 )，522 
fine-grained ( 细 粒 度 )，530 
hardware 硬件 )，530-533 
simultaneous (SMT， 同 时 多 线程 )，531-533 
Mutual exclusion ( 互 斥 )，125 


N 
Name dependence (名 字 依 赖 )，348 





NAND gates (与 非 门 )，A-8 
NAS (NASA Advanced Supercomputing, NASA 
先进 超级 计算 )，556 
Negation shortcut ( 求 相反 数 的 简便 方法 )，79 
Nested procedures ( 艇 套 过 程 )，104-105 
compiling recursive procedure showing (递归 过 
程 编译 )，104-105 
Network topologies (网 络 拓扑 结构 )，550-553 
implementing (实现 )，552 
multistage (多 级 )，553 
Networks (网 络 )，23-24 
advantages (优势 )，23 
bandwidth (带宽 )，549 
crossbar (交叉 开关 )，551 
fully connected (全 互 连 )，551 
local area (LAN， 局 域 网 )，24 
multistage (多 级 )，551 
wide area (WAN， 广 域 网 )，24 
Newton's iteration (牛顿 迭代 )，226 
Next-state function (下 一 状态 函数 )，474，A-66 
defined (定义 )，474 
No write allocation (不 写 分 配 )，408 
Nonblocking assignment ( 非 阻塞 分 配 )，A-24 
Nonblocking caches ( 非 阻塞 cache)，355，483 
Nonuniform memory access (NUMA ， 非 一 致 性 
存储 器 访问 )，534 
Nonvolatile memory ( 非 易 失 存储 器 )，22 
Nops ( 空 操作 )，326 
NOR gates (或 非 门 )，A-8 
cross-coupled (交叉 耦合 )，A-49 
D latch implemented with(D 锁 存 器 实现 ),A-51 
NOT operation ( 非 操作 )，91，A-6 
NOT-A-Number (NaN， 非 数 )，235，236 
Numbers ( 数 ) 
binary (二 进 制 )，75 
computer versus real-world( 计 算 机 与 现实 世界 )， 
229 
decimal (十 进 制 )，75，78 
denormalized ( 非 规格 化 )，230 
hexadecimal (十 六 进 制 )，84 
signed (有 符号 )，75-82 
unsigned (无 符号 )，75-82 
NVIDIA GPU architecture ( NVIDIA GPU 体系 结 
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构 )，539-541 
NVIDIA GTX, 280, 565, 566 
NVIDIA Tesla GPU, 564-569 


O 


Object files (目标 文件 )，132 
debugging information (调式 信息 )，131 
header ( 头 部 )，130 
linking (链接 )，132-134 
relocation information ( 重 定位 信息 )，130 
static data segment (静态 数据 段 )，130 
symbol table (符号 表 )，130 
text segment (代码 段 )，130 
Object-oriented languages (面向 对 象 语言 )， 见 Java 
brief history 
defined (定义 )，150 
One's complement ( 反 码 )，82，A-29 
Opcodes (操作 码 ) 
control line setting and (控制 线 设置 )，276 
defined (定义 )，84，274 
OpenMP ( Open MultiProcessing， 开 放 多 处 理 ， 
536, 556 
Operands (操作 数 )，67-72， 见 Instructions 
32-bit immediate ( 32 位 立即 数 )，115-116 
adding (加 )，189 
arithmetic instructions (算术 运算 指令 )，67 
compiling assignment when in memory (编译 在 
存储 器 中 的 赋值 语句 )，69 
constant (常量 )，73-74 
division (除法 )，197 
floating-point ( 浮 点 )，221 
LEGv8, 64 
memory (存储 器 )，68-69 
multiplication ( 乘 )，191 
Operating systems (操作 系统 ) 
defined (定义 )，13 
encapsulation (封装 )，22 
Operations (操作 ) 
atomic，implementing (原子 实现 )，126 
hardware (硬件 )，63-67 
logical (逻辑 )，90-93 
x86 integer (x86 整数 )，157，158 
Optimization (优化 ) 


compiler (编译 器 )，146 
manual (手册 )，150 
OR operation (或 操作 )，91，A-6 
Out-of-order execution ( 乱 序 执行 ) 
defined (定义 )，351 
performance complexity (性 能 复杂 性 )，430 
processors (处 理 器 )，355 
Output devices (输出 设备 )，16 
Overflow (溢出 ) 
defined (定义 )，76，206 
detection (检测 )，190 
exceptions (异常 )，339 
floating-point ( 浮 点 )，207 
occurrence (事件 /发 生 )，77 
saturation and (饱和 )，191 
subtraction ( 减 )，189 


P 


Packed floating-point format (打包 浮 点 格式 )，232 
Page faults ( 缺 页 故障 )，448， 见 Virtual memory 
for data access (数据 访问 )，463 
defined (定义 )，442 
handling (处 理 )，443，461-464 
virtual address causing (虚拟 地 址 导致 )，457， 
458 
Page tables (页 表 )，468 
defined (定义 )，446 
illustrated (举例 说 明 )，449 
indexing (索引 )，446 
inverted ( 反 向 )，451 
levels (级 )，451 
main memory ( 主 存储 器 )，451 
register (寄存 器 )，446 
storage reduction techniques (存储 减少 技术 )， 
451 
updating (更 新 )，446 
VMM (虚拟 机 )，463 
Pages (页 )， 见 Virtual memory 
defined (定义 )，442 
dirty ( 脏 )，452 
finding (查找 )，446-447 
LRU (最 近 最 少 使 用 )，448 
offset ( 偏 移 )，443 
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physical number (物理 页 号 )，443 
placing (放置 )，432-434 
Size (尺寸 )，444 
virtual number (虚拟 页 号 )，443 
Parallel execution (并 行 执行 )，125 
Parallel processing programs (并 行 处 理 器 程序 )， 
518-523 
creation difficulty (创建 难度 )，518-523 
defined (定义 )，516 
for message passing (消息 传递 )，533 
for shared address space (共享 地 址 空间 )，533- 
534 
use of (使 用 )，573 
Parallel software (并 行 软件 )，517 
Parallelism (并 行 性 )，12，43，342-355 
and computers arithmetic (计算 机 算术 )，230- 
232 
data-level (数据 级 )，246，524 
GPU and (图 形 处 理 单元 )，538 
instruction-level (指令 级 )，43，342，354 
memory hierarchies and (存储 器 层次 结构 )，477- 
481 
multicore and (多 核 )，533 
multiple issue (多 发 射 ) 342-349 
multithreading and (多 线程 )，531 
performance benefits (性 能 收益 )，44 
process-level (进程 级 )，516 
redundant arrays and inexpensive disks (廉价 元 
余 磁盘 阵列 )，481 
task-level (任务 级 )，516 
Paravirtualization ( 泛 虚 拟 化 )，495 
Parity (奇偶 ) 
bits (位 )，435 
code ( 码 )，434，A-64 
PARSEC ( Princeton Application Repository for 
Shared Memory Computers， 普 林 斯 顿 共 
享 内 存 计算 机 应 用 程序 库 )，556 
Pass transistor (传输 晶体 管 )，A-62 
PCI-Express (PCIe， 一 种 总 线 和 接口 标准 )，553 
PC-relative addressing (PC 相对 寻 址 )，118，120 
Peak floating-point performance (峰值 浮 点 性 能 ). 
558 
Pentium bug morality play ( Pentium 缺陷 闹剧 )， 


244 
Performance (性 能 )，28-40 
assessing (评估 )，28 
classic CPU equation (经 典 的 CPU 方程 )，36-40 
components (组 件 )，38 
CPU (中 央 处 理 单元 )，33-35 
defining (定义 )，29-32 
equation using (方程 使 用 )，36 
improving (改进 )，34-35 
instructions (指令 )，35-36 
measuring (测量 )，33-35 
program (程序 )，39-40 
ratio (比率 )，31 
relative (相对 的 )，31-32 
response time (响应 时 间 )，30-31 
throughput (吞吐 率 )，30-31 
time measurement (时 间 测 量 )，32 
Personal computers (PC， 个 人 计算 机 )，7 
defined (定义 )，5 
Personal mobile device (PMD， 个 人 移动 设备 ) 
define (定义 )，7 
Petabyte ( 千 兆 字 节 )，6 
Physical addresses (物理 地 址 )，442 
mapping to (映射 )，442-443 
space (空间 )，533，535 
Physically addressed caches (物理 编 址 cache)，458 
Pipeline registers (流水线 寄 存 器 ) 
before forwarding (转发 前 )，320 
dependence (依赖 )，319 
forwarding unit selection (转发 单元 选择 )，323 
Pipeline stall (流水 线 阻 塞 )，291 
avoiding with code reordering (通过 代码 重 排 
避免 )，291 
data hazards and (数据 冒险 )，324-328 
insertion (插入 )，326 
load-use ( 读 后 写 )，329 
as solution to control hazards (作为 控制 冒险 的 
解决 方案 )，293 
Pipelined branches (流水 线 分 支 )，331 
Pipelined control (流水 线 控 制 ), 311-315， 见 
Control 
control lines (控制 线 )，311，312 
overview illustration (概述 说 明 )，327 
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specifying (指定 )，312 
Pipelined datapaths (流水 线 数据 通路 )，297-315 
with connected control signals (连接 的 控制 信 
号 ), 315 
with control signals (控制 信号 )，311-315 
corrected (纠正 )，307 
illustrated (举例 说 明 )，300 
in load instruction stages (load 指令 级 )，307 
Pipelined dependencies (流水 线 依赖 )，307 
Pipelines (流水 线 ) 
branch instruction impact (分 支 指令 影响 )，329 
execute and address calculation stage (执行 和 
地 址 计算 级 )，301，303 
five-stage (五 级 )，285，301，309 
graphic representation (图 示 )，290，307-311 
instruction decode and register file read stage ( 指 
令 译 码 和 读 寄存 器 文件 级 )，300，303 
instruction fetch stage ( 取 指 令 级 )，301，303 
instruction sequence (指令 序列 )，325 
latency (延迟 )，297 
memory acecss stagc (存储 器 访问 级 )，301，303 
multiple-clock-cycle diagrams (多 时 钟 周期 图 )， 
308 
performance bottlenecks (性 能 瓶颈 )，353 
single-clock-cycle diagrams ( 单 时 钟 周期 图 )， 
308 
stages (级 )，285 
static two-issue (静态 双 发 射 )，345 
write-back stage ( 写 回 级 )，301，305 
Pipelining (流水 线 )，12，283-297 
advanced (先进 /高 级 )，354-355 
benefits (收益 )，283 
control hazards (控制 冒险 )，292-293 
data hazards (数据 冒险 )，289 
exceptions and (异常 )，338-342 
execution time and (执行 时 间 )，297 
fallacies ( 雇 误 )，366-367 
hazards (冒险 )，288 
instruction set design for (指令 集 设计 )，288 
laundry analogy (洗衣 类 比 )，284 
overview (概述 )，283-297 
paradox ( 悖 论 )，285 
performance improvement (性 能 提高 )，288 


pitfall (陷阱 )，366-367 
simultaneous executing instructions (同时 执行 
指令 )，297 
speed-up formula (加 速 比 公式 )，285 
structural hazards (结构 冒险 )，288，305 
summary (小 结 )，296 
throughput and (吞吐 率 )，297 
pitfalls (陷阱 )， 见 Fallacies 
address space extension (地址 空间 扩展 )，493 
arithmetic (算术 )，242-245 
associativity ( 相 联 度 )，492 
defined (定义 )，49 
ignoring memory system behavior (忽略 存储 器 
系统 行为 )，491 
memory hierarchies (存储 器 层次 结构 )，491-495 
out-of-order processor evaluation ( 乱 序 处 理 器 
评估 )，492 
performance equation subset (性 能 方程 子 集 )， 
50-51 
pipelining (流水 线 )，366-367 
pointer to automatic variables (指向 自动 变量 的 
指针 )，171 
sequential word addresses (连续 字 地 址 )，171 
simulating cache (模拟 cache)，491 
software development with multiprocessors ( 多 
处 理 器 软件 发 展 )，570 
VMM implementation (VMM 实现 )，495 
Pixels (像素 )，18 
Pointers (指针 ), 
arrays versus (数组 )，146-150 
frame ( 帧 )，106 
global (全 局 )，106 
incrementing (递增 )，148 
stack ( 栈 )，101，105 
Pop (弹出 )，101 
Power (功率 / 功 耗 ) 
clock rate and (时 钟 频率 )，40 
critical nature of (关键 特性 )，53 
efficiency (效率 )，354-355 
relative (相对 )，41 
Precise interrupts (精确 中 断 )，342 
Prediction (预测 )，12 
2-bit scheme ( 2 位 方法 )，333 
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accuracy (准确 的 )，333 
dynamic branch (动态 分 支 )，331-333 
loops and (循环 )，333-334 
steady-state ( 稳 态 )，333 
Prefetching ( 预 取 )，496，560 
Procedure calls (过 程 调用 ) 
preservation across (在 …… 期 间 保持 不 变 )，106 
Procedures (过 程 )，100-110 
compiling (编译 )，102 
compiling showing nested procedure linking ( 编 
译 显示 人 炭 套 过 程 链接 )，102-104 
execution steps (执行 步骤 )，100 
frames( 帧 )，106 
leaf ( 叶 )，104 
nested (手套 )，104-106 
recursive (递归 )，108 
for setting arrays to zero (设置 数组 为 0)，147 
sort (排序 )，140-145 
strcpy (字符 串 复制 (函数 ))，112-113 
string copy (字符 串 复制 )，112-113 
swap (交换 )，138 
Process identifiers (进程 标识 符 )，460 
Process-level parallelism (进程 级 并 行 )，516 
Processors (处 理 器 )，254-368 
as cores (作为 核心 )，43 
control (控制 )，19 
datapath (数据 通路 )，19 
defined (定义 )，17，19 
dynamic multiple-issue (动态 多 发 射 )，343 
multiple-issue (多 发 射 )，343 
out-of-order execution ( 乱 序 执行 )，355，430 
performance growth (性 能 提高 )，44 
speculation (推测 )，344-345 
static multiple-issue (静态 多 发 射 )，343，345- 
349 
superscalar (超标 量 )，349，531-532 
technologies for building (制造 技术 )，24-28 
two-issue( 双 发 射 )，346 
vector (向 量 )，523-524 
VLIW ( 超 长 指令 字 )，345 
Product (乘积 )，192 
Product of sums (和 之 积 )，A-11 
Program counters (PC， 程 序 计 数 器 )，263 


changing with conditional branch (条 件 分 支 转 
换 )，334 
defined (定义 )，101，263 
exception (异常 )，459，461 
incrementing (递增 )，263 ，265 
instruction updates (指令 更 新 )，300 
Program performance (程序 性 能 ) 
elements affecting (元 素 影 响 )，39 
understanding (理解 )，9 
Programmable array logic (PAL， 可 编程 阵列 逻 
辑 )，A-77 
Programmable logic array (PLA， 可 编程 逻辑 
阵列 )， 
component dots illustration (组 件 点 说 明 ), A-16 
defined (定义 )，A-12 
example (示例 )，A-13-14 
ilustrated (说 明 )，A-13 
ROMs and (只 读 存 储 器 )，A-15-16 
truth table implementation ( 真 值 表 实现 )，A-13 
Programmable logic device ( PLD， 可 编程 逻辑 器 
件 )，A-77 
Programmable ROM (PROM， 可 编程 ROM)， 
A-14 
Programming languages (编程 语言 )， 见 specific 
languages 
object-oriented (面向 对 象 )，150 
variables (变量 )，67 
Programs (程序 ) 
assembly language (汇编 语言 )，129 
Java starting (Java 开始 )，136-137 
parallel processing (并 行 处 理 )，516-523 
starting (开始 )，128-137 
translating (翻译 )，128-137 
Propagate (传输 ) 
defined (定义 )，A-39 
example (示例 )，A-44 
super (超级 )，A-40 
Protection (保护 ) 
defined (定义 )，442 
implementing (实现 )，459-460 
VMs for (虚拟 机 )，438 
Pseudo MIPS ( 伪 MIPS) 
defined (定义 )，246 


4 第 可 





instruction set (指令 集 )，248 
Pseudoinstructions ( 伪 指令 ) 

defined (定义 )，129 

summary (小 结 )，130 
Pthreads ( POSIX thread，POSIX 线程 (标准 )), 

556 

Push ( 压 栈 ) 

defined (定义 )，101 

using (使 用 )，104 


Q 


Quad word (四 字 )，158 
Quicksort (快速 排序 )，425，426 
Quotient ( 商 )，198 


R 


Race (竞争 )，A-72 

Radix sort (基数 排序 )，425，426 

RAID, 见 Redundant arrays of inexpensive disks 

RAM (随机 访问 存储 器 )，9 

Raster refresh buffer (光栅 刷新 缓冲 区 )、18 

Ray casting (RC， 光 线 投射 / 射线 造型 法 )，568 

Read-only memories (ROM， 只 读 存 储 器 )，A-14-16 
logic function encoding (逻辑 函数 编码 )，A-15 
PLAs and (可 编程 逻辑 阵列 )，A-15-16 
programmable (PROM， 可 编程 ROM)，A-14 

Read-stall cycles( 读 阻塞 周期 )，413 

Read-write head ( 读 写 头 )，395 

Receive message routine (接收 消息 例 程 )，545 

Recursive procedures (递归 过 程 )，108， 见 Proce- 

dures 

clone invocation (克隆 调用 )，104 

Reduction ( 归 约 )，535 

Reference bit (引用 位 )，450 

References (引用 ) 
absolute (绝对 )，126 

Register (寄存 器 )，31，74，102，175 

Register addressing (寄存 器 寻 址 )，120 

Register files (寄存 器 文件 )，A-49，A-53-55 
defined (定义 )，264，A-49，A-53 
in behavioral Verilog (Verilog 行为 )，A-56 
single (单个 )，269 
two read ports implementation (两 个 读 端口 的 


实现 )，A-54 
with two read ports/one write port( 两 个 读 端口 / 
一 个 写 端 口 )，A-54 
write port implementation ( 写 端 口 实现 )，A-55 
Registers (寄存 器 )，156，157-158 
architectural (结构 )，336-342 
base ( 基 )，69 
clock cycle time and (时 钟 周期 )，67 
compiling C assignment with (编译 C 赋 值 语 
句 ), 68 
defined (定义 )，67 
destination (目的 )，85，274 
floating-point( 浮 点 )，226 
left half ( 左 半边 )，301 
mapping (映射 )，82 
LEGv8 conventions (LEGv8 约定 )，108 
number specification (数据 手册 / 数据 说 明 书 )， 
264 
page table (页 表 )，446 
pipeline (流水 线 )，319，321，323 
primitives (基本 元 素 )，67 
renaming ( 重 命名 )，348 
right half ( 右 半 边 )，301 
spilling (溢出 )，72 
Status (状态 )，337 
temporary (暂时 )，68，102 
variables (变量 )，67 
Relative performance (相对 性 能 )，31-32 
Relative power (相对 功率 / 功 耗 )，41 
Reliability (可 靠 性 )，432 
Remainder (余数 ) 
defined (定义 )，198 
Reorder buffers ( 重 排序 缓冲 区 )，355 
Replication (复制 )，479 
Requested word first (请 求 字 优先 )，406 
Request-level parallelism (请 求 级 并 行 )，548 
Reservation stations (保留 站 ) 
buffering operands in (在 …… 中 缓冲 操作 数 )， 
350 
defined (定义 )，350 
Response time (响应 时 间 )，30-31 
Restartable instructions (重启 指令 )，462 
Return address (返回 地 址 )，100 
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Return from exception (ERET， 从 异常 中 返回 )， 
459 
R-format (R 型 )，274 
ALU operations (ALU 操作 )，265 
defined (定义 )，86 
Ripple carry ( 行 波 进位 ) 
adder (加 法 器 )，A-29 
carry lookahead speed versus (先行 进位 速度 )， 
A-45-46 
Roofline model ( Roofline 模型 )，558-559，560， 
561 
with ceilings (天 花 板 )，561 
computational roofline (可 计算 的 屋顶 线 )，559 
illustrated (举例 说 明 )，557 
Opteron generations ( 卑 龙 处 理 器 时 代 )，558 
with overlapping areas shaded (重合 部 分 阴影 
表示 )，563 
peak floating-point performance( 峰 值 浮 点 性 能 ). 
562 
peak memory performance (峰值 存储 性 能 )，562 
with two kernels (两 个 核心 程序 )，563 
Rotational delay (旋转 延迟 )， 见 Rotational latency 
Rotational latency (旋转 延迟 )，397 
Rounding ( 含 人 )，226 
accurate (精确 )，226 
bits (位 )，228 
with guard digits ( 带 保护 位 )，227 
IEEE 754 modes (IEEE 754 格式 )，227 
Row-major order ( 行 优先 顺序 )，225，427 
R-type instructions (R 型 指令 )，264 
datapath for (数据 通路 )，276 
datapath in operation for ( …… 操作 的 数据 通 
路 )，278 


S 


Saturation (饱和)，191 
SCALAPAK (可 扩展 线性 代数 库 )，244 
Scaling (缩放 /扩展 ) 
strong〈 强 比例 缩放 )，521 
weak( 弱 比例 缩放 )，521 
Scientific notation (科学 记 数 法 ) 
adding numbers in (加 入 数 )，213 
defined (定义 )，205 


forreals (对 于 实数 )，205 
Search engines (搜索 引擎 )，4 
Secondary memory (二 级 / 辅助 存储 器 )，23 
Sectors ( 扇 区 )，395 
Seek (寻找 )，396 
Segmentation (分 段 )，445 
Selector values (选择 信号 值 )，A-10 
Semiconductors (半导体 )，25 
Send message routine (发 送 消息 例 程 )，545 
Sensitivity list (敏感 列表 )，A-24 
Sequential logic (时 序 逻 辑 )，A-5 
Servers (服务 器 )， 见 Desktop and server RISC 
cost and capability (成 本 和 功能 )，5 
Service accomplishment (服务 完成 )，432 
Service interruption (服务 中 断 )，432 
Set instructions (设置 指令 )，97 
Set-associative caches (组 相连 cache)，417， 见 
Caches 
address portions (地 址 部 分 )，421 
block replacement strategies ( 块 替换 策略 )，468 
choice of (选择 )，467 
four-way (四 路 )，418，421 
memory-block location (存储 器 块 位 置 )，417 
misses (缺失 )，419-420 
n-way (n 路 )，417 
two-way (2 路 )，418 
Setup time (建立 时 间 )，A-52，A-53 
Shared memory (共享 存储 器 / 内 存 )， 见 Memory 
Shared memory multiprocessors (SMP， 共 享 内 存 
多 处 理 器 )，531-535 
defined (定义 )，517，531 
single physical address space (单一 物理 地 址 空 
间 )，531 
synchronization (同步 )，534 
Shift amount ( 移 位 数量 )，84 
Shift instructions ( 移 位 指令 )，90 
Sign and magnitude (符号 和 幅 值 )，206 
Sign bit (符号 位 )，78 
Sign extension (符号 扩展 )，266 
defined (定义 )，78 
shortcut (简便 方法 )，80 
Signals (信号) 
asserted (有 效 )，262，A-4 
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control (控制 )，262，274-275 
deasserted (无 效 )，262，A-4 
Signed division (有 符号 数 除法 )，201-202 
Signed multiplication (有 符号 数 乘 法 )，196 
Signed numbers (有 符号 数 )，75-82 
sign and magnitude (符号 和 幅 值 )，77 
treating as unsigned (作为 无 符号 数 处 理 )，98 
Significands (有 效 位 )，207 
addition (额外 的 )，212 
multiplication ( 乘 )，215 
Silicon ( 硅 )，25 
as key hardware technology (作为 关键 硬件 技 
术 )，53 
crystal ingot ( 品 锭 )，26 
defined (定义 )，26 
wafers ( 蝇 圆 )，26 
Silicon crystal ingot ( 硅 晶 锭 )，26 
SIMD ( Single Instruction Multiple Data， 单 指令 
多 数据 )，522，574 
vector architecture (向 量 结构 )，524-525 
in x86 (在 x86 中 )，524 
Simple programmable logic devices (SPLD， 简 单 
可 编程 逻辑 器 件 )，A-77 
Simplicity (简化 )，171 
Simultaneous multithreading (SMT， 同 时 多 线程 )， 
531-533 
support (支持 )，531 
thread-level parallelism (线程 级 并 行 )，531 
unused issue slots (未 使 用 的 发 射 模 )，531 
Single error correcting/Double error correcting 
(SECIDEC， 单 纠 错 / 双 纠 错 )，434-436 
Single instruction single data ( SISD ， 单 指令 单数 
据 )，523 
Single precision ( 单 精度 )， 见 Double precision 
binary representation (二 进 制 表示 )，210 
defined (定义 )，207 
Single-clock-cycle pipeline diagrams ( 单 时 钟 周期 
流水 图 )，308 
illustrated (说 明 )，310 
Single-cycle datapaths ( 单 周 期 数据 通路 )， 见 
Datapaths 
illustrated (说 明 )，298 
instruction execution (指令 执行 )，299 


Single-cycle implementation control function for 
( 单 周 期 实现 控制 功能 )，281 
defined (定义 )，281 
nonpipelined execution versus pipelined 
execution ( 非 流水 执行 和 流水 执行 )，287 
non-use of (未 使 用 )，284 
penalty (代价 )，283 
pipelined performance versus ( 流水 线性 能 )，285 
Smart phones (智能 手机 )，7 
Snooping protocol (监听 协议 )，479-481 
Software optimization (软件 优化 ) 
via blocking (通过 阻塞 )，427-432 
Sort algorithms (排序 算法 )，146 
Software (软件 ) 
layers ( 层 )，13 
multiprocessor (多 处 理 器 )，516 
parallel (并 行 )，517 
as service (服务 )，7，547，574 
systerms (系统 )，13 
Sort procedure (排序 过 程 )，140-144， 见 Procedures 
code for body (程序 体 代码 )，140-142 
full procedure (全 过 程 )，143-144 
passing parameters in (传递 参数 )，143 
preserving registers in (将 寄存 器 保存 在 )，143 
procedure call (过 程 调用 )，143 
register allocation for (寄存 器 分 配 )，140 
Space allocation (空间 分 配 ) 
on heap( 堆 上 )，107-110 
on stack ( 栈 上 )，106 
Spatial locality (空间 局 部 性 )，388 
large block exploitation of (大 块 开 发 )，405 
tendency (趋势 )，392 
SPEC 
CPU benchmark (CPU 基准 测试 程序 )，46-48 
power benchmark ( 功 耗 基准 测试 程序 )，48-49 
SPECrate (SPEC 分 值 )，554 
SPECratio (SPEC 分 值 )，47 
Speculation (推测 )，344-345 
hardware-based (基于 硬件 的 )，352 
implementation (实现 )，344 
performance and (性 能 )，344 
problems (问题 )，344 
recovery mechanism (恢复 机 制 )，344 
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Speed-up challenge (加 速 挑战 )，518 
balancing load (负载 均衡 )，518-519 
bigger problem (更 大 的 问题 )，520-521 
Spilling registers( 洲 出 寄存 器 )，72，101 
Split algorithm (分 割 算法 )，568 
Split caches (分 离 cache)，411 
Stack pointers ( 栈 指针 ) 
adjustment (调整 )，104 
defined (定义 )，101 
values ( 值 )，104 
Stacks ( 栈 ) 
allocating space on (分 配 栈 空 间 )，106 
for arguments (参数 )，145 
defined (定义 )，101 
pop ( 弹 栈 )，101 
push ( 压 栈 )，101，104 
Stalls (阻塞 )，291 
as solution to control hazard (作为 控制 冒险 的 
解决 方案 )，292 
avoiding with code reordering (通过 代码 重 排 
以 避免 )，291 
data hazards and (数据 冒险 )，324-328 
insertion into pipeline (插入 流水 线 )，326 
load-use ( 读 后 写 )，329 
memory (存储 器 )，414 
write-back scheme ( 回 写 方案 )，413 
write buffer ( 写 缓冲 区 )，413 
State (状态 ) 
in 2-bit prediction scheme ( 2 位 预测 方案 )，333 
assignment (分 配 )，A-69 
exception saving/restoring (异常 保存 /恢复 )，462 
logic components (逻辑 部 件 )，261 
specification of (规范 )，446 
State elements (状态 元 素 ) 
clock and (时 钟 )，262 
combinational logic and (组 合 逻 辑 )，262 
defined (定义 )，260，A-47 
inputs (输入 )，261 
in storing/accessing instructions (存储 /访问 指 
令 )，264 
Tegister file (寄存 器 文件 )，A-49 
Static branch prediction (静态 分 支 预测 )，345 
Static data (静态 数据 ) 


segment ( 段 )，107 
Static multiple-issue processors (静态 多 发 射 处 理 器 )， 
343，345-349， 见 Multiple issue 
control hazards and (控制 冒险 )，345 
instruction sets (指令 集 )，345 
with LEGv8 ISA( LEGv8 指令 集体 系 结构 )，345- 
348 
Static random access memories ( SRAM， 静 态 随 
机 访问 存储 器 )，392，393 ，A-57-61 
array organization (数组 / 阵列 组 织 )，A-61 
basic structure (基本 结构 )，A-60 
defined (定义 )，21，A-57 
fixed access time (固定 访问 时 间 )，A-57 
large (大 )，A-58 
read/write initiation ( 读 / 写 启动 )，A-58 
synchronous (SSRAM， 同步 SRAM)，A-59 
three-state buffers ( 三 态 缓冲 器 )，A-58，A-59 
Static variables (静态 变量 )，106 
Steady-state prediction ( 稳 态 预测 )，333 
Sticky bits (粘贴 位 )，228 
Store buffers (存储 缓冲 区 )，355 
Store instructions (store 指令 )， 见 Load instructions 
base register ( 基 址 寄存 器 )，274 
compiling with (用 …… 编译 )，71 
conditional (有 条 件 的 )，126 
defined (定义 )，71 
EX stage (执行 级 )，305 
ID stage ( 译 码 级 )，302 
JF stage ( 取 指 级 )，302 
instruction dependency (指令 依赖 )，323 
MEM stage ( 访 存 级 )，304 
unit for implementing (实现 单元 )，267 
WB stage ( 写 回 级 )，304 
Store register (存储 寄存 器 / 写 寄存 器 )，72 
Stored program concept (存储 程序 概念 )，63 
as computer principle (计算 机 原理 )，88 
illustrated (说 明 )，89 
principles (原理 )，171 
Strcpy procedure (字符 串 复制 过 程 )，112-113， 
见 Procedures 
as leaf procedure (作为 叶子 过 程 )，113 
pointers (指针 )，113 
Stream benchmark ( 流 基准 测试 程序 )，564 
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Streaming SIMD Extension 2 ( SSE2， 单 指令 多 
数据 流 扩展 ) 
floating-point architecture ( 序 点 体系 结构 )，232 
Streaming SIMD Extensions (SSE) and advanced 
vector extensions in x86 ( x86 中 的 单 指令 
多 数据 流 扩展 和 高 级 向 量 扩展 )，232-233 
Strings (字符 串 ) 
defined (定义 )，111 
in Java (在 Java 中 )，113-115 
representation (表示 )，111 
Strip mining (条 带 开 发 )，526 
Strong scaling ( 强 比例 )，521 
Structural hazards (结构 冒险 )，、288-289，305 
STUR (store register， 存 储 寄存 器 )，64 
STURB (store byte， 存 储 字 节 )，64 
STURH (store half， 存 储 半 字 )，64 
STURW (store word， 存 储 字 )，64 
STXR( store exclusive register， 存 储 专用 寄存 器 )， 
64, 126 
SUB (Subtract， 减 法)，64 
SUBI(subtract immediate， 减 立即 数 )，64 
SUBIS ( subtract immediate and set flags， 减 立即 
数 并 设置 标志 位 )，64 
SUBS ( 减 并 设置 标志 位 )，64 
Subnormals ( 亚 规格 化 )，230 
Subtraction (减法 )，188-191， 见 Arithmetic 
binary (二 进 制 )，188-189 
floating-point( 浮 点 )，220 
instructions (指令 )，A-56-57 
negative number (负数 )，190 
overflow (溢出 )，190 
Subword parallelism ( 子 字 并 行 )，230-232，365 
and matrix multiply (矩阵 乘法 )，238-242 
Sum of products ( 积 之 和 )，A-11，A-12 
Supercomputers (超级 计算 机 ) 
defined (定义 ),，5 
Superscalars (超标 量 ) 
defined (定义 )，349 
dynamic pipeline scheduling (动态 流水 线 调度 ) 349 
multithreading options (多 线程 选项 )，516 
Swap procedure (交换 过 程 )，138， 见 Procedures 
body code (程序 体 代码 )，138 
full ( 满 )，139-140，143-145 


register allocation (寄存 器 分 配 )，138 
Swap space (交换 空间 )，448 
Symbol tables (符号 表 )，130 
Synchronization (同步 )，125-127，568 
defined (定义 )，534 
lock ( 锁 )，125 
overhead reducing (开销 减少 )，44-45 
unlock (解锁 )，125 
Synchronizers (同步 器 ) 
defined (定义 )，A-75 
failure (故障 /失效 )，A-76 
from D flip-flop (D 触发 器 )，A-75 
Synchronous DRAM (SRAM， 同 步 DRAM)，393-394， 
A-59, A-64 
Synchronous SRAM(SSRAM， 同步 SRAM), A-59 
Synchronous system (同步 系统 )，A-47 
System calls (系统 调用 ) 
defined (定义 )，459 
Systems software (系统 软件 )，13 


T 


Tablets ( 表 )，7 
Tags (标记 ) 
defined (定义 )，398 
in locating block (定位 块 )，421 
page tables and (页 表 )，448 
size of (尺寸 )，423 
Tail call ( 尾 调用 )，109 
Task identifiers (任务 标识 符 )，460 
Task-level parallelism (任务 级 并 行 )，516 
Tebibyte (TiB， 太 字 节 ), 5 
Temporal locality (时 间 局 部 性 )，388 
tendency (趋势 )，392 
Temporary registers (临时 寄存 器 )，68，102 
Terabyte (TB， 太 字 节 ), 6 
defined (定义 )，5 
Thrashing (抖动 )，464 
Thread blocks (线程 块 )，542 
Three Cs model ( 3C 模型 )，459-461 
ThreD-state buffers (三 态 缓冲 器 )，A-58，A-59 
Throughput (吞吐 率 ) 
defined (定义 )，30-31 
multiple issue and (多 发 射 )，342 





pipelining and (流水 线 )，286，342 
Timing (时 序 ) 
asynchronous inputs (异步 输入 )，A-75-76 
level-sensitive ( 电 平 敏感 )，A-74-75 
methodologies (方法 )，A-71-76 
two-phase (两 相 )，A-74 
TLB misses (TLB 缺 失 )，453， 
look aside buffer 
handling (处 理 )，461-465 
occurrence (事件 / 发 生 )，461 
problem (问题 )，464 
Touchscreen (触摸 屏 )，19 
Toumament branch predicators (竞争 分 支 预测 器 )， 
334 
Tracks (磁道 )，395-396 
Transfer time (传输 时 间 )，397 
Transistors (晶体 管 )，25 
Translation Table Base Register( TTBR、 转 换 页 
表 基 址 寄存 器 )，449 
Translation-Lookaside buffer ( TLB， 快 表 )，452- 
454， 见 TLB misses 
associativities (相关 性 )，454 
illustrated (说 明 )，453 
integration (集成 )，457 
Intrinsity Fast MATH, 454-457 
typical values (典型 值 )，454 
Truth tables ( 真 值 表 )，A-5 
for control bits (控制 位 )，272 
defined (定义 )，272 
example (例子 )，A-5 
PLA implementation (PLA 实现 )，A-13 
Two's complement representation ( 补 码 表示 )，77-78 
advantage (优势 )，78 
negation shortcut ( 求 反 简 便 方 法 )，79-80 
rule (规则 )，81 
sign extension shortcut (符号 扩展 简便 方法 ), 
80-81 
Two-Ievel logic (两 级 逻辑 )，A-11-14 
Two-phase clocking (两 相 时 钟 )，A-74 


见 Translation- 


U 


Unconditional branches (无 条 件 分 支 )，94 
Underflow (下 涪 )，206 


Unicode (统一 码 ) 
alphabets (字母 表 )，113 
defined (定义 )，113 
example alphabets (示例 字母 )，114 
Uniform memory access ( UMA， 一 致 性 存储 器 
访问 )，534 
multiprocessors (多 处 理 器 )，534 
Units (单元 ) 
commit (提交 确认 )，350，355 
control (控制 )，259，271-273 
defined (定义 )，227 
floating point ( 浮 点 )，227 
hazard detection (冒险 检测 )，324，327-328 
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作者 : John L Hennessy 等 ISBN: 978-7-111-36458-0 定价 ，138.00 元 


“本 书 之 所 以 会 成 为 不 朽 的 经 典 之 作 ， 是 因为 每 次 再 版 都 不 仅仅 是 一 次 更 新 补充 ， 而 是 全 面 修订 ， 针 对 
这 个 激动 人 心 且 快速 变化 的 领域 ， 给 予 我 们 最 及 时 的 信息 和 权威 的 解读 。 即 便 对 于 我 这 样 已 从 业 二 十 多 年 的 人 
来 说 ， 再 次 阅读 本 书 时 ， 依 旧 自觉 学 无 止境 ， 感 仇 于 两 位 卓越 大 师 的 渊博 学 识 和 深厚 功底 。” 


一 一 Luiz Andre Barroso，Google 公 司 


“本 书 是 一 部 经 典 ， 犹 如 美酒 ， 历 久 而 弥 醇 。 只 有 Hennessy 和 Polterson 才 可 能 接触 到 谷歌 、 亚 马 逊 、 
微软 等 云 计算 与 互联 网 规模 的 应 用 提供 商 的 内 部 人 士 ， 对 这 一 重要 领域 ， 业 内 的 介绍 材料 无 出 其 右 。” 


一 一 James Hamilton，Amazon Web 服 务 


“ 《计算 机 体系 结构 : 量化 研究 方法 (第 5 版 )》 继续 发 扬 传统 ， 为 学 习 计算 机 体系 结构 的 学 生 提供 了 当 
前 计算 平台 的 最 新 信息 ， 使 他 们 能 够 洞悉 体系 结构 ， 便 于 设计 未 来 系统 。 这 一 版 的 亮点 在 于 大 幅 修 订 了 数据 级 
并 行 那 一 章 ， 用 传统 的 体系 结构 术语 清晰 地 解读 了 GPU 体系 结构 。” 


一 一 Krste Asanovi， 加 州 大 学 伯克利 分 校 


“本 书 已 经 成 为 一 本 经 典 教科 书 了 ， 这 一 版 突出 介绍 了 各 种 显 式 并 行 技术 (数据 、 线 程 、 请 求 ) 的 兴 
起 ， 各 用 整整 一 章 来 描述 。 数 据 并 行 一 章 尤 为 村 目 : 通过 向 量 SIMD、 指 令 级 SIMD 和 GPU 的 对 比 ， 避 开 每 种 体 
系 结构 的 专用 术语 ， 揭 示 了 这 些 体系 结构 之 间 的 相似 与 区 别 。” 


一 一 Kunle Olukotun， 斯 坦 福 大 学 


“这 一 版 新 增加 了 一 章 非 常 丰 富 的 内 容 ， 用 来 讨论 向 量 、SIMD 和 GPU 体系 结构 中 的 数据 级 并 行 技术 。 
它 解 释 了 应 用 于 大 众 市 场 的 GPU 内 部 的 关键 体系 结构 概念 ， 给 出 这 些 概念 与 传统 术语 的 对 应 关系 ， 并 与 向 量 
和 SIMD 体 系 结构 进行 了 对 比 。 这 一 内 容 非常 及 时 ， 与 业内 转向 GPU 并 行 计算 的 潮流 相 适 应 。 《计算 机 体系 结 
构 : 量化 研究 方法 》 继 续 独 领 风 骚 ， 全 面 地 介绍 了 体系 结构 方面 的 重大 新 进展 ! ” 


一 John Nickolls, NVIDIA 
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理解 计算 机 系统 首选 书目 ，10 余 万 程序 员 的 共同 选择 
卡 内 基 - 梅 隆 大 学 、 北 京 大 学 、 清 华 大 学 、 上 海 交通 大 学 等 国内 外 众多 知名 高 校 选 用 指定 教材 
从 程序 员 视 角 全 面 误 析 的 实现 甸 节 ， 使 读者 深刻 理解 程序 的 行为 ， 将 所 有 计算 机 系统 的 相关 知识 融会 贯通 
新 版 本 全 面 基于 X86-64 位 处 理 器 


基于 该 教材 的 北大 “计算 机 系统 导论 ”课程 实施 已 有 五 年 ， 得 到 了 学 生 的 广泛 赞誉 ， 学 生 们 通过 这 门 课程 的 学 习 
建立 了 完整 的 计算 机 系统 的 知识 体系 和 整体 知识 框架 ， 养 成 了 良好 的 编程 习惯 并 获得 了 编写 高 性 能 、 可 移植 和 健壮 的 
程序 的 能 力 ， 莫 定 了 后 续 学 习 操 作 系统 、 编 译 、 计 算 机 体系 结构 等 专业 课程 的 基础 。 北 大 的 教学 实践 表明 ， 这 是 一 本 
值得 推荐 采用 的 好 教材 。 本 书 第 3 版 采用 最 新 x86-64 架 构 来 贯穿 各 部 分 知识 。 我 相信 ， 该 书 的 出 版 将 有 助 于 国内 计算 机 
系统 教学 的 进一步 改进 ， 为 培养 从 事 系统 级 创新 的 计算 机 人 才 葛 定 很 好 的 基础 。 
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学 改革 ……' 现 在 我 课题 组 的 青年 教师 全 部 是 首 批 经 历 此 教学 改革 的 学 生 。 本 科 的 扎实 基础 为 他 们 从 事 系统 软件 的 研究 
打下 了 良好 的 基础 …… 师 资 力量 的 补充 又 为 推进 更 加 激进 的 教学 改革 创造 了 条 件 。 

一 一 减 过 宇 ”上 海 交通 大 学 软件 学 院 院 长 
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